中国AI创业公司通过创新降低模型成本

与西方同行相比,中国大模型公司面临着尖端芯片获取、资金投入等方面的窒碍,但是他们正在通过降低成本来打造具有国际竞争力的模型。

在头部的初创企业中,如零一万物(01.ai)和DeepSeek选择使用优质但较小数据集来训练AI模型、招聘一批二十多岁的技术狂人,不但能做独树一帜的科研,而且成本也较低。

科技巨头中,如阿里巴巴、百度和字节跳动,也燃起了大模型价格战,将调用大语言模型生成回答这段技术所需的“推理”成本降低了 90% 以上,仅为美国同行的价格的极小一部分。

位于北京的零一万物是由前谷歌中国总裁李开复领导。他表示,零一万物在较小的数据集上训练出了对算力要求较低的模型,并且创造了模基共建的方法,结合了硬件、芯片、内存、AI基础软件的垂直整合和优化,打造了Yi-Lightning(闪电模型)。该模型比OpenAI GPT4o便宜31倍的推理成本。

本周,在由加州大学伯克利分校 SkyLab 和 LMSYS 的研究人员所发布的大模型排名中,零一万物凭借 Yi-Lightning 模型与发布Grok-2、与马斯克创办的xAI并列为全球排名第三的大模型公司,仅次于 OpenAI 和谷歌的最新模型。

LMSYS是基于用户提出真实问题,然后针对不同模型的回答给出盲测投票,最终汇总成为对各个模型的评分。OpenAI、谷歌都在这里发布所有的模型,并接受LMSYS的排名。包括字节跳动、阿里巴巴和 DeepSeek 等其他中国大模型玩家,也悄悄爬上了 LLM 排名榜。

李开复告诉《金融时报》:“中国的优势在于制造真正实惠的推理引擎,这是AI应用蓬勃发展最重要的一件事。”

零一万物 Yi-Lightning 的推理成本是每百万个 token 收取 14 美分(0.99 元人民币),而 OpenAI 的较小模型 o1-mini 每百万个 token 则需要 26 美分。与此同时,OpenAI 的更大尺寸的模型 GPT-4o 的推理成本为每百万个 token 4.40美元。AI 大模型生成回答所用的 token 数量取决于查询的复杂度。

李开复还表示,Yi-Lightning 模型的“预训练”成本为 300 万美元,这指的是模型关键训练阶段的成本,之后可以根据不同的应用场景进行微调或定制。这预训练成本仅为 OpenAI 训练GPT-4的3%,而且Yi-Lightning性能还超越了GPT-4。他补充说,零一万物的科研北极星不是“无论多贵多大,打造世界第一模型”,而是要打造一个世界第一梯队的模型、但是成本超低,能打造出高性价比模型,让开发者构建应用而不被推理成本压垮。

包括零一万物、DeepSeek、MiniMax 和阶跃星辰在内的许多中国大模型公司,都采用了所谓的“混合专家”模型架构,一种被美国研究人员率先提出的模型架构。

与 “从互联网和其他来源抓取数据构建起庞大数据库上,并一次性地训练一个庞大的‘稠密模型’”不同,“混合专家”模型选择将多个对不同领域可称为“专家”的神经网络集合到一起。

研究人员认为,混合专家模型架构是以较少的算力,达到与稠密模型相同智能水平的关键技术。但这种方法训练失败的可能性更大,因为在模型训练过程中需要同时协调多个“专家”模型,而非集中关注单个模型的训练。因此不少美国公司(如Meta的Llama)就没有开发出来,而中国公司似乎掌握了“混合专家”模型架构。尤其是零一万物和Deepseek,做出了世界最快的混合专家模型。

鉴于获取尖端AI 芯片供给的禁令和难度,中国 AI 领域的玩家在过去一年中一直在竞相开发高质量数据集来训练这些“专家”,使得自家模型具备与竞争对手不同的特色。李开复表示,零一万物采用了远远优于传统网络抓取方法的数据收集方法,包括扫描书籍,爬取深网区的数据,使用新颖的合成数据技术等。

“工程师在数据标注和排序方面需要做很多不为人知的艰苦工作,”但他补充说,中国拥有大量技术厉害且刻苦耐劳的工程人才,在这方面比美国更有优势。

“中国的优势不一定能在预算不封顶的情况下做出前所未有的突破性研究,但肯定能更好、更快、更可靠和更低成本地实现落地”,李开复说。