☰

腾讯杰出科学家刘威：软件的未来是生成式

文｜《中国企业家》记者闫俊文

编辑｜姚赟

图片来源｜中企图库

7月27日，由《中国企业家》杂志社主办的2024（第二十四届）中国企业未来之星年会在上海举行。在“前沿微课”环节，腾讯杰出科学家、腾讯混元大模型技术负责人之一刘威作主题分享。演讲中，刘威介绍了腾讯混元大模型的进展以及应用情况。

精彩观点如下：

1.我将AI的发展周期划分为四个阶段：第一阶段是符号主义；第二阶段是连接主义，标志性事件是2012年Hinton发明的8层卷积神经网络；第三阶段，引用一位AI科普作家的说法，称为现实主义，即深度强化学习，标志性事件是2016年DeepMind发明的AlphaGo；目前AI进入了第四阶段，即生成主义，标志性事件是2022年末OpenAI发明的ChatGPT。

2.关于大模型的技术路线一直存在争议，即模型尺寸是否需要不断增大。然而，当有更好的模型训练算法技术时，模型是否会变得越来越小——我们的技术正是帮助用户定制化蒸馏和微调模型。

3.仅仅依靠人类的对齐手段，大模型的智能水平很难超过人类。对齐指的是与人类对齐，与人类的价值观和世界观对齐。数学和物理都是人类通过几千年的自然观察提炼总结而成的，而AI无法自主创造这些知识，因此AI必须向人类学习这些知识。

以下为刘威的演讲实录（有删改）：

我们从人工智能的寒冬一路走到现在，经历了多个时期。我在学习人工智能时，认为当时的技术处于“旧石器时代”。后来，我们历经了新石器时代、青铜器时代、铁器时代和蒸汽时代，如今AI技术正处于“电力时代”。从旧石器时代到电力时代，AI仅用了20多年就完成了革命性的迭代。

我将AI的发展周期划分为四个阶段：第一阶段是符号主义；第二阶段是连接主义，其标志性事件是2012年Hinton发明的8层卷积神经网络；第三阶段是引用一位AI科普作家的话称为现实主义，即深度强化学习，标志性事件是2016年DeepMind发明的AlphaGo；目前AI已经进入第四阶段，即生成主义，其标志性事件是2022年末OpenAI发明的ChatGPT。

2023年1月，无论是国内公司还是国外公司，都在集中力量，自主研发对标ChatGPT的生成式AI大模型。如果说2023年是生成式AI爆发的元年，那么2024年显然是多模态生成式AI爆发的元年。

腾讯混元模型体系覆盖了从底层到上层的各个层级，包括单专家模型和混合专家模型（MoE），在最上层是广泛的应用。国内绝大多数模型是单专家的，腾讯则同时在单专家和MoE模型上都做了很多探索。

在2023年9月，我们推出了小程序版本，现在可以在微信小程序中搜索到“腾讯元宝”。当时的模型参数达到了千亿级别，训练数据包括了万亿的文本token。到2023年底，我们已经实现了万亿参数的MoE模型。目前，我们仅在文本token方面的积累就相当于全国所有图书馆的总和。我常和朋友们说，token是取之不尽的资源，可以将1秒钟的语音当作一个token，也可以将10秒钟的语音当作一个token，甚至可以将一个像素当作一个token。不同尺度下的多模态token使我们的token数量不断增加，模型参数理论上也会越来越大。

我们的核心技术覆盖了底层、中层和高层，腾讯已经拥有了十万卡集群。英伟达四年前收购的以色列公司Mellanox支持万卡集群。中间层的训练框架包括开源的DeepSpeed和PyTorch，和腾讯自研的Angel。现在我们不仅支持稀疏的MoE模型计算，也支持稠密模型计算。我们有多种模型版本，如Lite版本和Pro版本，收费非常便宜，Lite版本完全免费。

关于我们的全栈技术，首先，万卡集群显然不能只将最高端的GPU放在一起。就像我喜欢看的武侠小说中的“天罡北斗七星阵”，若干低端的GPU合力能匹配一块高端GPU的算力，我们也实现了4D并行GPU计算。关于大模型的技术路线一直存在争议，即模型尺寸是否需要不断增大。然而，当有更好的模型训练算法技术时，模型是否会变得越来越小——我们的技术正是帮助用户定制化蒸馏和微调模型。

对于生成式大模型，如果不懂AI或技术的人，可能会认为大模型只是聊天机器人，似乎没有更大的用处。就在这个月，OpenAI重新定义了生成式AI的五个层次，其中L1是聊天机器人，GPT-3.5已经足够用了，现在国内外有很多模型超过了GPT-3.5。第二个层次是优秀的推理能力。然而，幻觉和推理是两个矛盾的概念，生成式AI必然会有幻觉。

我们经常提一个问题：树上有十只鸟，开枪打死了一只鹰，还剩几只鸟？大模型可能会回答还有九只。无论是推理还是逻辑陷阱，我们认为应该用新技术来解决。总结业内和腾讯的原创技术，有两套方法：

首先是通过数据增强提升推理稳定性的方法，其次是通过模型增强提升推理精准度的方法。我们有一个假设或推测，仅依靠人类的对齐手段AI很难超过人类。对齐指的是与人类对齐，与人类的价值观和世界观对齐。数学和物理是人类通过几千年对自然界的观察提炼总结出来的，而AI无法自主创造这些知识，所以需要向人类学习。同样，我们有社会性（society），包括人类的行为规则和组织规则，AI对此一无所知。

最近，OpenAI提出，他们不仅要实现AGI（通用人工智能），还要实现ASI（超级人工智能），因此AI必须通过自我学习进行对齐和升级。如果一个AI无法推理，人类怎么能帮助它推理？人类可以写一个很长的提示词（Prompt），告诉它如何推理，但几年后，ChatBot可能就不再有用了。因此，AI的推理能力必须从被动推理变为主动推理。

如何实现主动推理？我们提出了三个方案：

第一个方案是人类构造一些语料让AI学习。对于每一个逻辑推理类问题，除了思考（think）还要进行验证（verify），且逐步验证（step by step），即think step by step，然后verify step by step，通过数据增强的方式使AI的推理过程更加稳定，从而提升自主推理能力。

方案二和方案三是OpenAI最近在两篇论文中提出的。方案二是批评机制，创建一个批评模型对目标模型的回答进行打分评估，即自我批评式的学习；在对目标模型训练指令微调时，批评模型会在训练过程中告知模型训练的效果，从而优化训练质量。方案三运用了自博弈学习的思想，这是OpenAI提出的一种全新训练框架——Prover-Verifier Games（简称“PVG”）。业内已经在尝试这三个方案，希望通过这些方法提升AI的推理能力，实现AI主动推理，而不再是被动的模仿式推理。

2024年，学界工业界在探讨什么是世界模型？我认为世界模型至少应具备两种特质：强大的推理能力与模拟能力。大语言模型如GPT，在Scaling Law的指导下，压缩海量的世界知识，渐渐会成为一个world reasoner（世界推理器）。扩散模型如文生图、文生视频模型，也在Scaling Law的指导下，对不同概率分布的数据集进行形状变换，最终会形成一个world simulator（世界模拟器）。我认为世界模型的最佳形态是结合world reasoner和world simulator，这将开创一个新的AI时代。

今年5月，腾讯率先在国内开源了基于DiT框架的文生图模型。随后，腾讯开源了一套控件工具体系，既提供基础模型，又提供直接使用的模型微调工具，且所有语料均经过筛选，符合中文特性。该模型对中国的本土风格非常了解，能够很好地生成多主体内容，如人与人、人与宠物的互动，更重要的是支持多轮对话生成作图。

我们已经实现了文生视频、文+图生视频及多种视频生成应用，这些应用已经用于腾讯云和腾讯广告的服务中。比如风格化视频、运动笔刷、人物视频生成、画布扩展等，还能将横屏视频转换为竖屏视频。目前，腾讯有700多个产品和业务接入了腾讯混元大模型。

有人问腾讯为何如此拥抱生成式AI？我认为软件的未来就是生成式AI。微信的输入法、“搜一搜”功能已经是生成式的。腾讯文档、腾讯会议也都接入了腾讯混元大模型，腾讯会议小助手在会前、会中、会后都有生成式AI功能。几个月前，我们发布了腾讯的“广告妙思”平台，提供一站式的AIGC能力，可以一键生成图文广告、视频广告，涵盖多种风格、多项尺寸，适配多个行业（如游戏、电商、本地生活等）。

在生成式AI时代，我想对大家说：未来可期，万物可生。

腾讯杰出科学家刘威：软件的未来是生成式

相关资讯