☰

北京深度求索公司推出首个国产开源MoE大模型

1月15日讯，北京深度求索公司推出首个国产开源MoE大模型DeepSeek MoE，性能媲美Llama 2-7B，计算量降低60%。DeepSeek MoE目前推出的版本参数量为160亿，实际激活参数量大约是28亿。此外，深度求索团队还透露，DeepSeek MoE模型还有145 B版本正在研发。阶段性的初步试验显示，145 B的DeepSeek MoE对GShard 137 B具有极大的领先优势，同时能够以28.5%的计算量达到与密集版DeepSeek 67 B模型相当的性能。（量子位）

相关资讯

▣ 阿里通义千问开源首个MoE模型
▣ 中国银河维持计算机推荐评级：国产开源MoE模型DeepSeek-V2性能媲美GPT-4，大模型价格战拉开帷幕
▣ 稀宇科技推出万亿MoE模型abab 6.5
▣ 北京君正：公司没有开发MOE架构计算芯片
▣ MiniMax 国内首个 MoE 大语言模型上线拥有处理复杂任务能力
▣ 最神秘国产大模型团队冒泡，出手就是万亿参数MoE，2款应用敞开玩
▣ 一块钱100万token，超强MoE模型开源，性能直逼GPT-4-Turbo
▣ 「天工大模型3.0」4月17日正式发布——同步开源4000亿参数MoE超级模型，性能超Grok1.0
▣ 中国首个音乐SOTA模型「天工音乐大模型」今日开启公测
▣ 将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B
国造潜舰模型公布陆媒按图追索技术来源国
▣ 快讯丨开源大模型社区HuggingFace公布大模型排行榜
▣ Kimi爆火，国产大模型开始“卷”长文本，多家上市公司回应
国内首档产业型公司债ETF12月4日开募
▣ 华为放大招，通信大模型来了！这些公司早已深入大模型产品研发，有望持续爆发
▣ 通义千问发布首个千亿级参数开源模型
▣ 数智早参｜苹果推出开源大模型OpenELM；阿里云宣布EMO模型上线通义APP
北京“两区”探索开放新模式
▣ 第三届北京智源大会开幕全球最大智能模型“悟道2.0”发布
快讯／伊朗东北规模5.2地震　震源深度10公里
智利北部发生规模5.6地震震源深度174公里
▣ 数智早参｜OpenAI官宣推出新的大语言模型GPT-4o；腾讯混元文生图大模型开源
▣ 度小满“轩辕70B”金融大模型宣布开源
▣ 北京年度首个万人规模赛事开跑男女双破半马纪录
5大维度21项细分能力拿下国产大模型首位，文心一言还是那个老大
▣ 北京大兴机场推出“深夜食堂”
Nokia品牌授权印度公司Flipkart　明天推出首款智慧型电视　
深度剖析新能源汽车产业链：未来什么样的公司能赚大钱？
依托北京至蒙特利尔航线魁北克省旅游局大力推广深度旅游资源

DMCA | PRIVACY | s@bg3.co