☰

号称匹敌GPT-4o　陆AI模型DeepSeek-V3训练仅花558万美元

▲深度求索（DeepSeek）。（图／翻摄DeepSeek）

记者蔡绍坚／综合报导

中国大陆AI公司深度求索（DeepSeek）26日发表了全新大型开源AI模型「DeepSeek-V3」。据其官方的数据，DeepSeek-V3在性能上已可匹敌世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet。

根据《第一财经》报导，DeepSeek-V3的发表在X上引起不小的讨论，科技圈惊叹的点在于，这一模型能力对标头部模型，但训练的预算却非常低，「2048个GPU、2个月、近600万美元」。相较之下，GPT-4o等模型的训练成本约为1亿美元，至少在万个GPU量级的计算集群上训练。

DeepSeek-V3是一个具有6710亿总参数的MoE（混合专家）模型，每token激活参数为370亿，在14.8兆token上进行了预训练。

官方给出的数据显示，DeepSeek-V3 多项测评成绩超越了阿里通义的 Qwen2.5-72B 和Meta的Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

▼深度求索给出的性能数据。（图／翻摄DeepSeek）

DeepSeek表示，通过算法和工程上的创新，DeepSeek-V3 的生成吐字速度提高了三倍，从20 TPS提高至60 TPS，API服务价格也同步做了调整，目前为每百万输入tokens 0.5元（缓存命中）/2元（缓存未命中），每百万输出tokens 8元。但全新模型有45天的优惠价格体验期，为每百万输入tokens 0.1元（缓存命中）/1元（缓存未命中），每百万输出tokens 2元。

此价格在目前头部模型市场中有一定的竞争力。例如OpenAI的GPT 4o定价为输入：5美元/百万Token，输出：15美元/百万Token，加总成本是20美元。

前Open AI 联合创始人、Tesla AI 团队负责人Andrej Karpathy在X上发文表示，Llama 3 405B 使用了3080万GPU小时，而DeepSeek-V3 看起来是一个更强大的模型，仅使用了280万GPU 小时（计算量约为十分之一），如果该模型的优良表现能够得到广泛验证，这一模型将是在资源受限的情况下，在研究和工程方面让人印象深刻的一次展示。

▼DeepSeek-V3的性价比受到关注。（图／翻摄DeepSeek）

号称匹敌GPT-4o 陆AI模型DeepSeek-V3训练仅花558万美元

相关资讯

号称匹敌GPT-4o　陆AI模型DeepSeek-V3训练仅花558万美元