腾讯杰出科学家刘威:软件的未来是生成式

文|《中国企业家》记者 闫俊文

编辑|姚赟

图片来源|中企图库

7月27日,由《中国企业家》杂志社主办的2024(第二十四届)中国企业未来之星年会在上海举行。在“前沿微课”环节,腾讯杰出科学家、腾讯混元大模型技术负责人之一刘威作主题分享。演讲中,刘威介绍了腾讯混元大模型的进展以及应用情况。

精彩观点如下:

1.我将AI的发展周期划分为四个阶段:第一阶段是符号主义;第二阶段是连接主义,标志性事件是2012年Hinton发明的8层卷积神经网络;第三阶段,引用一位AI科普作家的说法,称为现实主义,即深度强化学习,标志性事件是2016年DeepMind发明的AlphaGo;目前AI进入了第四阶段,即生成主义,标志性事件是2022年末OpenAI发明的ChatGPT。

2.关于大模型的技术路线一直存在争议,即模型尺寸是否需要不断增大。然而,当有更好的模型训练算法技术时,模型是否会变得越来越小——我们的技术正是帮助用户定制化蒸馏和微调模型。

3.仅仅依靠人类的对齐手段,大模型的智能水平很难超过人类。对齐指的是与人类对齐,与人类的价值观和世界观对齐。数学和物理都是人类通过几千年的自然观察提炼总结而成的,而AI无法自主创造这些知识,因此AI必须向人类学习这些知识。

以下为刘威的演讲实录(有删改):

我们从人工智能的寒冬一路走到现在,经历了多个时期。我在学习人工智能时,认为当时的技术处于“旧石器时代”。后来,我们历经了新石器时代、青铜器时代、铁器时代和蒸汽时代,如今AI技术正处于“电力时代”。从旧石器时代到电力时代,AI仅用了20多年就完成了革命性的迭代。

我将AI的发展周期划分为四个阶段:第一阶段是符号主义;第二阶段是连接主义,其标志性事件是2012年Hinton发明的8层卷积神经网络;第三阶段是引用一位AI科普作家的话称为现实主义,即深度强化学习,标志性事件是2016年DeepMind发明的AlphaGo;目前AI已经进入第四阶段,即生成主义,其标志性事件是2022年末OpenAI发明的ChatGPT。

2023年1月,无论是国内公司还是国外公司,都在集中力量,自主研发对标ChatGPT的生成式AI大模型。如果说2023年是生成式AI爆发的元年,那么2024年显然是多模态生成式AI爆发的元年。

腾讯混元模型体系覆盖了从底层到上层的各个层级,包括单专家模型和混合专家模型(MoE),在最上层是广泛的应用。国内绝大多数模型是单专家的,腾讯则同时在单专家和MoE模型上都做了很多探索。

在2023年9月,我们推出了小程序版本,现在可以在微信小程序中搜索到“腾讯元宝”。当时的模型参数达到了千亿级别,训练数据包括了万亿的文本token。到2023年底,我们已经实现了万亿参数的MoE模型。目前,我们仅在文本token方面的积累就相当于全国所有图书馆的总和。我常和朋友们说,token是取之不尽的资源,可以将1秒钟的语音当作一个token,也可以将10秒钟的语音当作一个token,甚至可以将一个像素当作一个token。不同尺度下的多模态token使我们的token数量不断增加,模型参数理论上也会越来越大。

我们的核心技术覆盖了底层、中层和高层,腾讯已经拥有了十万卡集群。英伟达四年前收购的以色列公司Mellanox支持万卡集群。中间层的训练框架包括开源的DeepSpeed和PyTorch,和腾讯自研的Angel。现在我们不仅支持稀疏的MoE模型计算,也支持稠密模型计算。我们有多种模型版本,如Lite版本和Pro版本,收费非常便宜,Lite版本完全免费。

关于我们的全栈技术,首先,万卡集群显然不能只将最高端的GPU放在一起。就像我喜欢看的武侠小说中的“天罡北斗七星阵”,若干低端的GPU合力能匹配一块高端GPU的算力,我们也实现了4D并行GPU计算。关于大模型的技术路线一直存在争议,即模型尺寸是否需要不断增大。然而,当有更好的模型训练算法技术时,模型是否会变得越来越小——我们的技术正是帮助用户定制化蒸馏和微调模型。

对于生成式大模型,如果不懂AI或技术的人,可能会认为大模型只是聊天机器人,似乎没有更大的用处。就在这个月,OpenAI重新定义了生成式AI的五个层次,其中L1是聊天机器人,GPT-3.5已经足够用了,现在国内外有很多模型超过了GPT-3.5。第二个层次是优秀的推理能力。然而,幻觉和推理是两个矛盾的概念,生成式AI必然会有幻觉。

我们经常提一个问题:树上有十只鸟,开枪打死了一只鹰,还剩几只鸟?大模型可能会回答还有九只。无论是推理还是逻辑陷阱,我们认为应该用新技术来解决。总结业内和腾讯的原创技术,有两套方法:

首先是通过数据增强提升推理稳定性的方法,其次是通过模型增强提升推理精准度的方法。我们有一个假设或推测,仅依靠人类的对齐手段AI很难超过人类。对齐指的是与人类对齐,与人类的价值观和世界观对齐。数学和物理是人类通过几千年对自然界的观察提炼总结出来的,而AI无法自主创造这些知识,所以需要向人类学习。同样,我们有社会性(society),包括人类的行为规则和组织规则,AI对此一无所知。

最近,OpenAI提出,他们不仅要实现AGI(通用人工智能),还要实现ASI(超级人工智能),因此AI必须通过自我学习进行对齐和升级。如果一个AI无法推理,人类怎么能帮助它推理?人类可以写一个很长的提示词(Prompt),告诉它如何推理,但几年后,ChatBot可能就不再有用了。因此,AI的推理能力必须从被动推理变为主动推理。

如何实现主动推理?我们提出了三个方案:

第一个方案是人类构造一些语料让AI学习。对于每一个逻辑推理类问题,除了思考(think)还要进行验证(verify),且逐步验证(step by step),即think step by step,然后verify step by step,通过数据增强的方式使AI的推理过程更加稳定,从而提升自主推理能力。

方案二和方案三是OpenAI最近在两篇论文中提出的。方案二是批评机制,创建一个批评模型对目标模型的回答进行打分评估,即自我批评式的学习;在对目标模型训练指令微调时,批评模型会在训练过程中告知模型训练的效果,从而优化训练质量。方案三运用了自博弈学习的思想,这是OpenAI提出的一种全新训练框架——Prover-Verifier Games(简称“PVG”)。业内已经在尝试这三个方案,希望通过这些方法提升AI的推理能力,实现AI主动推理,而不再是被动的模仿式推理。

2024年,学界工业界在探讨什么是世界模型?我认为世界模型至少应具备两种特质:强大的推理能力与模拟能力。大语言模型如GPT,在Scaling Law的指导下,压缩海量的世界知识,渐渐会成为一个world reasoner(世界推理器)。扩散模型如文生图、文生视频模型,也在Scaling Law的指导下,对不同概率分布的数据集进行形状变换,最终会形成一个world simulator(世界模拟器)。我认为世界模型的最佳形态是结合world reasoner和world simulator,这将开创一个新的AI时代。

今年5月,腾讯率先在国内开源了基于DiT框架的文生图模型。随后,腾讯开源了一套控件工具体系,既提供基础模型,又提供直接使用的模型微调工具,且所有语料均经过筛选,符合中文特性。该模型对中国的本土风格非常了解,能够很好地生成多主体内容,如人与人、人与宠物的互动,更重要的是支持多轮对话生成作图。

我们已经实现了文生视频、文+图生视频及多种视频生成应用,这些应用已经用于腾讯云和腾讯广告的服务中。比如风格化视频、运动笔刷、人物视频生成、画布扩展等,还能将横屏视频转换为竖屏视频。目前,腾讯有700多个产品和业务接入了腾讯混元大模型。

有人问腾讯为何如此拥抱生成式AI?我认为软件的未来就是生成式AI。微信的输入法、“搜一搜”功能已经是生成式的。腾讯文档、腾讯会议也都接入了腾讯混元大模型,腾讯会议小助手在会前、会中、会后都有生成式AI功能。几个月前,我们发布了腾讯的“广告妙思”平台,提供一站式的AIGC能力,可以一键生成图文广告、视频广告,涵盖多种风格、多项尺寸,适配多个行业(如游戏、电商、本地生活等)。

在生成式AI时代,我想对大家说:未来可期,万物可生。