Kimi创始人杨植麟:Scaling laws依然有效 强化学习是重点

《科创板日报》11月17日讯(记者 黄心怡) 在月之暗面Kimi Chat上线一周年之际,Kimi发布了新一代数学推理模型k0-math模型,以及包含了k0-math强化模型的Kimi探索版,未来几周将会分批陆续上线Kimi网页版和Kimi智能助手APP。

“如果说长文本是月之暗面登月的第一步,那么提升模型深度推理能力则是第二步。”月之暗面创始人杨植麟在接受包括《科创板日报》在内的媒体采访时表示。

除数学推理模型外,杨植麟透露,几个多模态能力也在内测中。

作为炙手可热的AI独角兽公司,近日杨植麟陷入一场仲裁纠纷,并面临人才流失的质疑。

对此杨植麟回应称,并没有人才流失,而是主动选择做了业务的减法。

“先聚焦,然后全球化,需要更耐心一点。我们不希望把团队扩那么大,这对创新的影响是有致命性的伤害。如果想把团队保持在一定的规模,那么最好的方式是业务上做一些减法。”

据悉,kimi每月的活跃用户规模已经达到3600万。谈及用户投流策略,杨植麟表示最关键的提升用户留存,这是目前最核心的任务,对此没有上限的限制。

“百模大战”已经经历了一年多时间,业界的焦点从卷模型转向了卷应用。此前有消息称,一些大模型企业放弃了预训练模型,业务重心转向AI应用。

对于预训练大模型未来发展,杨植麟认为,预训练大模型还有迭代空间。“预计还有半代到一代的模型的空间会在明年释放出来,我觉得在明年,业内领先的模型会把预训练做到一个比较极致的阶段。”

▌Scaling laws依然有效 但需要更好的方法

大模型的Scaling laws,即规模法则,是当前AI圈不少人所信奉的定律。所谓Scaling laws是相信“大力出奇迹”,随着模型规模、训练数据和计算资源的增加,模型性能会得到显著提升,

杨植麟认为,“Scaling”对AI而言是不变的关键词。“支撑AI技术在过去几年发生的进展,基本上可以归功于一个词是Scaling。”

不过,杨植麟表示,Scaling并不意味把模型做得更大就好,而是要找到有效的方法来Scale,比如更好的数据和方法。

“我们接下来会越来越关注基于强化学习的方法来Scale。我们认为,接下来AI发展的方向,还是持续地Scale,只是Scale的过程不一样,是更多的强化学习,在强化学习的过程中生成更多的数据来做。”

杨植麟把AI的发展比作荡秋千,会在两种状态之间来回切换。“一种状态是算法数据已经完备了,但是算力不够,这就要求做更多的工程,把基础设施做得更好,就能够持续的提升。从transformer诞生到GPT4,更多的矛盾就是怎么能够Scale,但在算法和数据上可能没有本质的问题。”

但是随着算力扩展到一定的规模,这时算力的增加很难再直接提升模型的质量。

“这时的状态是,你会发现再加更多的算力,并不一定能看到直接的提升。因为核心是没有高质量的数据,小几十G的token是人类互联网积累了20多年的上限。于是,要通过算法的改变,来释放Scaling的潜力,所有的好算法是跟Scaling做朋友,它就会持续变得更好。”

▌大模型需要提升思考能力

大模型的出现、AIGC的应用改变了人机交互方式,在不少业内展望中,在以大模型为代表的AIGC技术加持下,人机交互体验将彻底被重构。而杨植麟认为,在强调交互能力的同时,更应该注重大模型的思考能力。

“AI最重要的是思考和交互这两个能力。思考的重要性远大于交互,不是说交互不重要,交互是一个必要条件,但思考会决定上限。因此,接下来很重要的一件事是让AI具备思考的能力。”

最适合让AI锻炼思考的能力,无疑是数学场景。

“伽利略曾说过,宇宙是由数学这门语言书写而成的。它是整个宇宙的基石,很多规律只是通过数学来刻划的。而且好处是并不需要跟外界进行交互,相对来说比较严密的自成一体,它自己可以成为一个体系,这让数学成为AI学习这种思考能力的一种非常好的场景。”杨植麟称。

相比文字应用能力,大模型的数学能力一直存在较大的差距。

今年6月,上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示,三科总分420分,大模型最高分仅303分,其中语文、英语表现相对良好,数学全不及格。

杨植麟表示,目前的模型还是有一些局限性。“比如拿高考数学全国范围内最难的题去考大模型,现在有一定的概率会做错。但本身模型的能力提升是很快的,比如去年对高考题大概能做百分之二三十的准确率,但如今我们能做到90%的准确率。”

在现场的演示中,Kimi对2024AIME数学竞赛、高等数学题目进行了解答,通过用强化学习的方式来逼近更强的链路思考,来确保每一步的正确性,并且在得出答案,会像人类一样进行二次验算。

“当然,还有非常大的提升空间,但如果持续的做强化学习的Scaling,应该是可以能够在更多的场景完成长链路的思考、复杂的推理。还有很重要的一点,就是更多的泛化,把这种推理泛化到更多的任务里。”杨植麟称。

据悉,月之暗面计划在教育领域进行探索,并与Kimi搜索场景结合。“无论是K12、大学甚至竞赛,这里会有很多的场景可使用。我们还是希望把它更多的泛化,比如把强化学习的技术用在搜索场景里,跟Kimi探索版相结合,提升模型在搜索过程中的推理能力,做更复杂的搜索。”

▌聚焦核心业务 不要把自己变成大厂

近日来,关于月之暗面缩减出海项目、聚焦Kimi的消息在市场上流传。杨植麟透露,大概今年三、四月份,做出了聚焦Kimi,对业务做减法的决定。

“这一是基于美国市场的判断,二是基于自身的观察。我们主动选择做了业务的减法,应该聚焦在上限最高的事情,然后做好。”

杨植麟认为,创业团队的人数不能太多,而是要真正聚焦于把核心的创新能力做好。如果把自己变成大厂,就没有任何优势了。

“在国内大模型创业公司里,我们始终保持人数最少,始终保持卡和人的比例是最高的,这是非常关键的。我们不希望把团队扩那么大,因为人数扩张对创新的影响有致命性的伤害。如果你想把团队保持在一定的规模,那么最好的方式是业务上做一些减法。”

杨植麟透露,“一开始也尝试过比如说几个产品一块做,这在一定的时期内可能是有效的,到后来发现还是要聚焦,把一个产品做到极致是最重要的。比如三个业务一起做,就活生生把自己变成大厂,那会没有任何的优势。”

对于在大模型研发上,杨植麟表示,预训练大模型还有半代到一代的空间,预计明年预训练大模型就会达到比较极致的阶段,但重点会在强化学习上。此外,几个多模态的能力也在内测中。

谈及用户投流和商业化变现的平衡,杨植麟称,目前最核心的任务就是提升留存。“留存是一个重要的衡量指标,这对我们来说是最重要的。留存到多少会满意?我的回答是永无止境。”