北京深度求索公司推出首个国产开源MoE大模型
1月15日讯,北京深度求索公司推出首个国产开源MoE大模型DeepSeek MoE,性能媲美Llama 2-7B,计算量降低60%。DeepSeek MoE目前推出的版本参数量为160亿,实际激活参数量大约是28亿。此外,深度求索团队还透露,DeepSeek MoE模型还有145 B版本正在研发。阶段性的初步试验显示,145 B的DeepSeek MoE对GShard 137 B具有极大的领先优势,同时能够以28.5%的计算量达到与密集版DeepSeek 67 B模型相当的性能。(量子位)
相关资讯
- ▣ 阿里通义千问开源首个MoE模型
- ▣ 中国银河维持计算机推荐评级:国产开源MoE模型DeepSeek-V2性能媲美GPT-4,大模型价格战拉开帷幕
- ▣ 稀宇科技推出万亿MoE模型abab 6.5
- ▣ 北京君正:公司没有开发MOE架构计算芯片
- ▣ MiniMax 国内首个 MoE 大语言模型上线 拥有处理复杂任务能力
- ▣ 最神秘国产大模型团队冒泡,出手就是万亿参数MoE,2款应用敞开玩
- ▣ 一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo
- ▣ 「天工大模型3.0」4月17日正式发布——同步开源4000亿参数MoE超级模型,性能超Grok1.0
- ▣ 中国首个音乐SOTA模型「天工音乐大模型」今日开启公测
- ▣ 将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
- 国造潜舰模型公布 陆媒按图追索技术来源国
- ▣ 快讯丨开源大模型社区HuggingFace公布大模型排行榜
- ▣ Kimi爆火,国产大模型开始“卷”长文本,多家上市公司回应
- 国内首档产业型公司债ETF12月4日开募
- ▣ 华为放大招,通信大模型来了!这些公司早已深入大模型产品研发,有望持续爆发
- ▣ 通义千问发布首个千亿级参数开源模型
- ▣ 数智早参|苹果推出开源大模型OpenELM;阿里云宣布EMO模型上线通义APP
- 北京“两区”探索开放新模式
- ▣ 第三届北京智源大会开幕 全球最大智能模型“悟道2.0”发布
- 快讯/伊朗东北规模5.2地震 震源深度10公里
- 智利北部发生规模5.6地震 震源深度174公里
- ▣ 数智早参|OpenAI官宣推出新的大语言模型GPT-4o;腾讯混元文生图大模型开源
- ▣ 度小满“轩辕70B”金融大模型宣布开源
- ▣ 北京年度首个万人规模赛事开跑 男女双破半马纪录
- 5大维度21项细分能力拿下国产大模型首位,文心一言还是那个老大
- ▣ 北京大兴机场推出“深夜食堂”
- Nokia品牌授权印度公司Flipkart 明天推出首款智慧型电视
- 深度剖析新能源汽车产业链:未来什么样的公司能赚大钱?
- 依托北京至蒙特利尔航线 魁北克省旅游局大力推广深度旅游资源