字节开源MoE关键优化技术，模型训练成本省40%、内部万卡集群已部署

蓝鲸新闻3月10日讯 3月10日，字节豆包大模型团队官宣开源一项针对MoE架构的关键优化技术COMET，可将大模型训练效率提升1.7倍，成本节省40%。该技术已实际应用于字节的万卡集群训练，累计帮助节省了数百万GPU小时训练算力。据介绍，COMET支持业界绝大部分主流大模型，可以像插件一样接入已有的MoE训练框架，也可以与DeepSeek开源的DualPipe方案联用以更大压缩训练成本。（蓝鲸新闻朱俊熹）

相关资讯

▣ 字节对MoE模型训练成本再砍一刀成本可节省40%
▣ 【明日主题前瞻】字节攻克MoE关键瓶颈，训练成本节省40%
▣ 字节跳动豆包大模型团队开源一项MoE架构优化技术
▣ 字节跳动颠覆性技术！MoE训练效率暴增1.7倍，成本降40%：概念股
▣ 字节跳动商业化团队模型训练被“投毒” 内部人士称未影响豆包大模型
▣ 四方精创：公司技术团队已完成了deepseek R1模型的本地化部署工作
▣ 汇川技术：已部署并应用主流开源AI模型，积极对接国内各大AI厂商
▣ 广发证券：已完成DeepSeek模型的本地化部署
▣ AI应用行业观察：DeepSeek技术生态扩散；阿里开源模型引爆低成本部署
▣ 字节跳动商业化团队模型训练被“投毒”，内部人士称豆包大模型未受攻击影响
▣ 西南证券：已完成DeepSeek-R1模型的本地化部署
▣ 信安世纪：已完成包括DeepSeek在内的主流大模型本地化部署
▣ 中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元
▣ 信安世纪：已经完成包括DeepSeek在内的主流大模型本地化部署
▣ 深圳数据交易所已完成DeepSeek大模型本地化部署
▣ 字节跳动已建起万卡GPU集群
▣ 日照市完成DeepSeek大模型本地化部署
▣ 苏交科：已完成本地化部署DeepSeek大模型，已实现多场景应用
▣ 科大讯飞：已关注DeepSeek的MoE模型技术进展，持续推动星火大模型迭代提升
▣ 重磅！TeleAI 完成首个全国产化万卡万参大模型训练
日宣布「陆基神盾」部署喊卡　防卫大臣曝内幕：与成本技术困难有关
▣ 腾讯开源：3D素材生成模型、最大MoE模型，兼容OpenAI SDK
▣ 信达证券：公司已完成DeepSeek大模型的本地化部署和测试
▣ 京北方：已完成私有化部署DeepSeek系列大模型
▣ 光大证券：已完成DeepSeek大模型的私有化部署
▣ 第一个100%开源的MoE大模型，7B的参数，1B的推理成本
▣ 迪阿股份：公司已于近期完成了DeepSeek大模型的本地化部署
▣ 京北方：已完成私有化部署DeepSeek系列的大模型
▣ 《国际产业》低成本训练机器人辉达推出Cosmos开源模型