迈出“登月”第二步:Kimi比肩OpenAI o1最新技术,杨植麟聚焦做减法
正如这家公司的名字一般,月之暗面,总是一个令人好奇的存在。11月16日下午,在Kimi Chat上线一周年之际,公司创始人杨植麟罕见现身,在多家媒体面前走出了“登月”第二步。
“如果说长文本是月之暗面‘登月’的第一步,那么提升模型深度推理能力则是第二步。”身穿一件黑色公司文化衫的杨植麟发布了新一代数学能力可对标OpenAI o1系列的数学推理模型k0-math。
当新模型在众人面前进行数学题“测试”时,这位原本略显羞涩的90后“创业明星”终于来到了自己的主场,看着数字、公式一行行地弹出,兴奋地讲解着其中的原理。
据介绍,该款模型是Kimi推出的首款推理能力强化模型,采用了全新的强化学习和思维链推理技术——这与杨植麟对行业技术发展的判断方向一致,“接下来最重点的东西会在强化学习上,范式上会产生变化,它还是Scaling(扩展),只是通过不同的方式去Scale”。
在k0-math的表现方面,月之暗面方面披露,在中考、高考、考研以及包含竞赛题的MATH等数学基准测试中,k0-math初代模型成绩已经超过o1-mini和o1-preview模型。
“(k0-math的发布)大概率能说是,在OpenAI o1发布后,国内首个摸索出并实现o1思路的公司。”一位国内头部互联网公司的大模型技术人员在接受《每日经济新闻》记者采访时表示,“现在国内想要赶超o1的大模型团队都会以数学领域为第一步,因为不需要大量的标注数据,成本最低,而且有可验证的标准答案。”
月之暗面的下一步是什么?“Kimi目前最核心的任务是提升留存。”杨植麟在接受《每日经济新闻》记者采访时表示,“基本上它跟你的技术成熟度或者技术水平也是一个正相关的关系,所以对我们当前来说是最重要的。假设我们以最后AGI这个目标作为衡量,我觉得现在还在初级阶段。”
发布会数据显示,截至今年10月,Kimi的月活已超3600万人,而且数据在持续增长。
发布会现场 图片来源:公司提供
“接下来重点在强化学习”,Kimi发布对标o1系列数学模型
发布会上,月之暗面公布了k0-math的目前测评得分:在业界最常使用的数学能力基准测试MATH中,k0-math模型得分93.8分,超过o1-mini的90分和o1-preview的85.5分,且k0-math这一成绩仅次于o1完全版的94.8分。
“什么样的场景最适合让AI锻炼思考能力?我们认为是数学场景。”发布会现场,杨植麟表示,在训练该模型的过程中,最重要的是看其是否真正具备深度思考的能力。
据介绍,相较于以尽快提供答案为关键目标的常规模型,k0-math模型在做题过程中会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。
不过,杨植麟也指出,虽然k0-math模型擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。此外,它可能会存在对“1+1=?”这样过于简单的数学问题进行过度思考,对于高考难题和IMO(国际数学奥林匹克竞赛试题)依然有一定概率做错、猜答案之类的局限性。
根据月之暗面的介绍,k0-math模型采用了全新的强化学习和思维链推理技术,这也是业内普遍认为OpenAI o1系列的技术关键所在,行业范式也在因此发生着改变。
“AI的发展就像荡秋千,我们会在两种状态之间来回切换:有时候,算法、数据都很ready了,但是算力不够,我们要做的就是加算力;但今天我们发现,不断扩大算力规模已经不一定能直接解决问题了,所以这时就需要通过改变算法,来突破这个瓶颈。”杨植麟表示。
对于业内对Scaling Law(规模定律)逐渐放缓的看法,杨植麟认为,预训练还有空间,大概半代到一代的模型,这个空间会在明年释放出来,“明年,我觉得领先的模型会把预训练做到一个比较极致的阶段”。
“但我们判断,接下来最重点的东西会在强化学习上,就是范式上会产生一些变化。本质上,它还是Scaling,并不是不用Scale,只是说你会通过不同的方式去Scale,这是我们的判断。”他表示。
同时,他指出,该数学推理模型的推出,一方面在教育产品、Kimi整体的流量里有非常大的价值;另一方面,该模型上的技术可以放在更多场景里,比如让Kimi探索版去做更多的搜索。
“最核心的是提升留存”,Kimi选择做减法
在今年6月的一次媒体采访中,杨植麟多次以“聚焦”作为对创业思路、成功经验的回应,“在技术和产品上可能我们都希望更加聚焦”,“因为你如果什么东西都做了,可能最后也很难做好”。
不久前,有消息称月之暗面几位出海产品负责人已于近期离职创业。此外,今年9月,月之暗面决定停止更新两款已上线的出海产品——Ohai和Noisee,暂时收缩了出海to C应用。
在发布会现场,杨植麟间接回应了上述市场传言:“我们没有人才流失,我们主动做了业务减法。”
这一思路的确定在今年春天,杨植麟观察了月之暗面的具体发展并对美国市场进行了判断,得出结论:的确得做减法,而不是疯狂做加法。
“我们一开始尝试过几个产品一块做,这在一定时期内奏效,但后来发现,这样就活生生把自己变成大厂了,没有任何优势。”杨植麟将锁定“聚焦”视为过去一年较大的课题,“砍业务本质上也是在控制人数。这几个大模型创业公司里,我们始终保持人数最少,始终保持(显)卡和人的比例最高,这非常关键。我们不希望团队扩那么大,(扩大)对创新有致命性伤害。另外我们也会根据美国市场的情况,判断哪个业务做大的概率更高。”
聚焦Kimi,当下杨植麟认为最为核心的任务是什么?他在接受《每日经济新闻》记者采访时给出了答案:提升留存,“(令自己满意的留存)永无止境”。
“因为留存是技术成熟的重要指标,并且(现在的留存)还有非常大的提升空间。我们的模型能力跟产品指标是高度相关的。”他解释,“目前我们的模型可能思考能力还不够强,交互还不够丰富,我们把这些东西做得更好之后,留存会进一步上升。”
第三方机构QuestMobile发布的《中国移动互联网2024年秋季报告》显示,截至2024年9月AIGC App月度活跃用户同比增长393.9%,豆包、文小言、Kimi智能助手App月活用户分别达到4197.6万人、1191.5万人和1024.8万人,活跃用户3日留存率分别为39.1%、31.2%和32.2%。
在发布会上,杨植麟表示,截至2024年10月,Kimi的月活已超3600万人,而且数据在持续增长。
在行业的多模态进展方面,界面新闻曾报道,Runway联合创始人曾在11月9日公开表示,OpenAI计划在大约两周内发布Sora。
对此,杨植麟透露,内部几个多模态的能力在内测,“关于多模态,我觉得AI接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互,不是说交互不重要,我觉得思考会决定上限,交互是一个必要条件,比如说vision(视觉)的能力,如果没有vision的能力没法做交互”。
在Open AI出新牌后,Kimi又一次成为国内第一个“跟牌者”,在这场焦灼的牌局中,杨植麟和月之暗面拿出了留到最后的野心。