缺先进晶片却靠技术超车 中国追赶西方AI模型速度惊人
虽然无法获得最先进晶片,中国的AI新创公司追赶美国领先的人工智慧模型的速度极快,已超出许多业内人士的预期。(图/Shutterstock)
尽管中国在购买先进晶片方面受限,但愈来愈多的有迹象表明,中国的AI新创公司追赶美国领先的人工智慧模型的速度极快,已超出许多业内人士的预期。虽然有些模型仍未正式发表与测试,但据看过这些模型运作的专家表示,这些人工智慧模型的进展「令人印象深刻」。
据《华尔街日报》 报导,以中国最成功的避险基金经理人之一投资的新创公司 DeepSeek为例,该公司于11月发布其最新大型语言模型的预览版。该公司表示,这款大型语言模型能力与OpenAI名为o1的推理模型相比毫不逊色。
与此同时,最近几周其他中国公司也发表类似的声明。由中国网路巨擘阿里巴巴 和腾讯投资的新创公司月之暗面 (Moonshot AI) 表示,其开发一个专门研究数学的模型,其能力接近 OpenAI 的 o1。另一方面,阿里巴巴表示自家的一个实验研究模型在数学上优于 OpenAI 的 o1 预览版本。
报导指出,虽然这些公司尚未发表描述其模型内容的论文,但许多专家表示,对这些模型印象深刻。OpenAI前研究员、现任人工智慧企业家卡尔 (Andrew Carr)表示,中国「正在更快地迎头赶上」。卡尔认为,试图复制OpenAI推理模型的DeepSeek研究人员「在几个月内就弄清楚了」,他坦言许多同事对此感到惊讶。
DeepSeek 称其模型在美国国际数学邀请赛 (AIME) 上击败了 OpenAI。但《华尔街日报》利用今年 AIME 的 15 个问题进行的一项实验发现,OpenAI 的 o1 预览模型比 DeepSeek、Moonshot 和阿里巴巴的实验模型更快找到了答案。
报导指出,自去年年底以来,AI 开发人员越来越多使用一种名为「混合专家模型」(Mixture of Experts, MoE) 的技术,这种技术能降低对晶片的需求。
AI 新创公司 Anthropic 的联合创始人克拉克(Jack Clark)在他的部落格中写道:「中国绕过出口管制的一种方法是,利用它可以访问的硬体建立非常好的软体和硬体培训。」他称:「中国制造将成为 AI 模型的一部分,就像电动车、无人机和其他技术一样。」尽管如此,据中国高层称,缺乏尖端晶片对中国新创企业来说是痛苦的,而且差距还会扩大。