智源研究院王仲远:国产大模型已达“可用”水平,仍需向“好用”努力
本报记者 曲忠芳 北京报道
“过去这一年,各家公司都训练了大量的模型,尤其是大语言模型。企业已经在做的事情,智源研究院就不会再去重复地做。”在近日举行的2024北京智源大会期间,北京智源人工智能研究院(以下简称“智源研究院”)院长王仲远在接受《中国经营报》记者采访时表示,作为一家非营利性的科研机构,“智源要做的是攻克大模型的核心关键痛点,解决行业前沿的技术难题”。
智源研究院成立于2018年11月,是由北京市科委和海淀区政府共同推动创立的新型研发机构。今年2月1日,王仲远接任黄铁军成为智源研究院第二任院长。本次大会上,智源研究院公布了一系列最新成果,涵盖大语言模型、多模态大模型、具身智能大模型及生物计算大模型的智源大模型“全家桶”面市,此外还推出了大模型全栈开源技术底座FlagOpen2.0,目的在于打造“大模型时代的Linux”。
王仲远认为,国产大模型快速发展,目前已达到了一个“可用的水平”,而要达到“非常好用的水平”,依然还要继续努力。与此同时,针对大模型目前面临的算力紧张、近期的降价潮、通用人工智能(AGI)的演进路径,以及前沿技术的产业成果转化等业界关注的热点问题,王仲远在采访中也给出了智源研究院的观察与探索。
探索AGI的终极演进路线
火热的大模型技术是否通往AGI的终极路线呢?
王仲远指出,现阶段语言大模型的发展,已经具备了通用人工智能非常核心的理解和推理能力,并且形成了一条以语言大模型为核心、对齐和映射其他模态的技术路线,从而让模型具备了初步的多模态理解和生成能力。“但这并不是让AI感知理解物理世界的终极技术路线,应该采取统一模型的范式,实现多模态的输入和输出,让模型具备原生的多模态扩展能力,向世界模型演进。未来大模型将以数字智能体的形态与智能硬件融合,以具身智能的形态从数字世界进入物理世界,同时大模型技术可为科学研究提供新的范式,加速人类对微观物理世界规律的探索与研究突破,不断趋近AGI的终极目标。”王仲远如是说道。
智源研究院对于AGI演进路线的观点与判断,决定了智源研究院的重点科研方向。王仲远介绍,为了实现多模态、统一、端到端的下一代大模型,智源研究院推出了Emu3原生多模态世界模型。与行业普遍采用的DiT架构不同,Emu3采用的是智源自研的多模态自回归技术路径,在图像、视频、文字上联合训练,使模型具备原生多模态能力,实现了图像、视频、文字的统一输入和输出。Emu3从模型训练开始就是为统一的多模态生成和理解而设计的,目前具备生成高质量图片和视频、续写视频、理解物理世界等多模态能力。简单来说,Emu3既统一了视频、图像、文字,也统一了生成和理解。据了解,目前Emu3还处在持续训练阶段,经安全评估之后未来将逐步开源。
王仲远坦言,智源要做技术原始的技术创新,就要尊重科学规划,同时也要接受失败的可能性。目前探索自回归多模态技术最大的一个挑战是算力,智源研究院需要更多算力和资金支持,预计下半年能有更多的多模态进展公布,同时,王仲远呼吁国内给予类似的原生创新以更多包容。
对于当下大模型训练算力消耗高的问题,智源研究院和中国电信人工智能研究院联合研发并推出了首个万亿级语言模型Tele-FLM-1T。该模型主打“低碳生长”,即以业界普通训练方案9%的算力资源——基于112台A800服务器,用4个月完成了3个模型总计2.3T tokens(token是大模型文本处理的最小单位)的训练,实现了算力性能的高效和稳定。
记者在采访中注意到,王仲远数次提及智源研究院作为一家非营利性科研机构的属性,当被提问如何将前沿研究成果转化为实际生产力时,王仲远给出了“生态”一词。“人工智能技术绝不是一个象牙塔里纯研究的问题,而是需要跟产业界紧密合作的。”他总结道,第一,智源大会能够连接中国与全球的AI研究者,将行业顶尖的人才聚拢起来共同探讨中国的人工智能发展,为中国的大模型技术及产业发展作贡献。第二,产业孵化是重要工作,自成立以来智源研究院先后孵化了十几家创业公司,其中不少已成为业界耳熟能详的企业。同时,在前沿技术研究中会跟上下游企业、科研院校或机构开展广泛的合作。智源研究院秉持开放合作的理念,构建起研究成果与产业发展紧密结合的生态。
大模型从“可用”向“好用”迈进
回顾近年来国产大模型的发展,王仲远指出,国产大模型在过去一年里取得长足的进步,去年时还在追逐GPT-3.5,而到今年国产大模型的平均水平已超过了GPT-3.5,正在无限地逼近GPT-4,甚至在中文语境之下某些能力超过后者。当然,GPT-4本身也在不断地迭代升级。国产大模型仍处在一个追赶的阶段,大模型在科技圈里非常火热,而普通用户感受可能并不明显,很重要的原因在于大模型的能力不够,国内市场在场景、应用方面的优势还未发挥出来,因此国产大模型未来依然要朝着“非常好用的水平”去努力前进。
当提及前不久国产大模型的降价潮时,王仲远表示,成本降低对于开发者使用接入大模型做更多的应用尝试是有一定价值的,但另一方面也要避免劣币驱逐良币,整个大模型的迭代升级仍是需要巨大资金投入的,智源研究院乐见的是中国大模型的良好产业生态形成和健康可持续发展。
记者注意到,几家主流的国产大模型企业在智源大会上就近期行业降价潮、价格战一事也作出了正面回应。智谱AI公司CEO张鹏表示,商业最终要回归到用户价值、生产力价值,亏本做买卖不是正常的商业逻辑。在很长一段时间里,智谱AI的价格保持着行业极低的水平,这是因为技术能做到将成本空间释放出来,惠及用户,推动大模型的普及。旗下拥有Kimi大模型的月之暗面CEO杨植麟持类似观点,称当AI能够做的事情在某个时间点超过人做的事情,就会产生新的商业模式。百川智能CEO王小川则认为,价格战作为市场行为至少带来了两个积极的后果:一是更多用户、更多企业能够用上大模型,使得大模型迅速普及;二是在没有价格战的时候,国内可能会有多达成百上千个大模型在进行,造成社会资源的浪费,当市场形成分层,很多企业明确自己作为大模型使用方——而非供给方的定位,能够促进产业的有序发展。
国产大模型的竞争持续升温,何时才会出现真正“杀手级”的应用产品?王仲远强调:“每一项新技术的出现,到C端出现所谓的爆款应用,是有一定周期的,需要天时地利人和。”他分析道,在2023年之前,人工智能只能针对特定场景、特定任务去训练特定模型,达到特定的效果,这被业界称为“弱人工智能时代”。而在2023年之后,将逐步进入通用人工智能时代,其最大的特点就是泛化性、通用性、跨领域的特性,几乎可以影响所有行业。目前大模型作为提高文本处理效率的工具,已显现出效果,而在文生图、文生视频方面虽然处于早期的阶段,但已经能够产出很多有创意的素材。未来随着技术优化、成本降低,大模型能真正解决用户需求的痛点,C端的爆款应用将会出现。
(编辑:吴清 审核:李正豪 校对:颜京宁)