号称匹敌GPT-4o 陆AI模型DeepSeek-V3训练仅花558万美元
▲深度求索(DeepSeek)。(图/翻摄DeepSeek)
记者蔡绍坚/综合报导
中国大陆AI公司深度求索(DeepSeek)26日发表了全新大型开源AI模型「DeepSeek-V3」。据其官方的数据,DeepSeek-V3在性能上已可匹敌世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet。
根据《第一财经》报导,DeepSeek-V3的发表在X上引起不小的讨论,科技圈惊叹的点在于,这一模型能力对标头部模型,但训练的预算却非常低,「2048个GPU、2个月、近600万美元」。相较之下,GPT-4o等模型的训练成本约为1亿美元,至少在万个GPU量级的计算集群上训练。
DeepSeek-V3是一个具有6710亿总参数的MoE(混合专家)模型,每token激活参数为370亿,在14.8兆token上进行了预训练。
官方给出的数据显示,DeepSeek-V3 多项测评成绩超越了阿里通义的 Qwen2.5-72B 和Meta的Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
▼深度求索给出的性能数据。(图/翻摄DeepSeek)
DeepSeek表示,通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度提高了三倍,从20 TPS提高至60 TPS,API服务价格也同步做了调整,目前为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。但全新模型有45天的优惠价格体验期,为每百万输入tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens 2元。
此价格在目前头部模型市场中有一定的竞争力。例如OpenAI的GPT 4o定价为输入:5美元/百万Token,输出:15美元/百万Token,加总成本是20美元。
前Open AI 联合创始人、Tesla AI 团队负责人Andrej Karpathy在X上发文表示,Llama 3 405B 使用了3080万GPU小时,而DeepSeek-V3 看起来是一个更强大的模型,仅使用了280万GPU 小时(计算量约为十分之一),如果该模型的优良表现能够得到广泛验证,这一模型将是在资源受限的情况下,在研究和工程方面让人印象深刻的一次展示。
▼DeepSeek-V3的性价比受到关注。(图/翻摄DeepSeek)