对话智源总工程师林咏华:基础大模型的二次学习能力远比“榜单”重要 | REAL大会

10月26日,界面新闻主办的REAL科技大会在京举行,北京智源人工智能研究院副院长兼总工程师林咏华为REAL科技大会做了20分钟开场演讲,演讲主题是《打造大模型技术的“Linux”,为AI未来十年发展打下坚实根基》,在百模大战进入第二幕之际,这位智源研究院的副院长兼总工程师、IBM中国研究院成立以来的首位女性院长详细探讨了目前做基础模型的机构需要不断打磨的关键问题。

多年的研究界经历让林咏华非常看重大模型的人才储备,她在主题演讲之后,与界面新闻等四家媒体进行了交流,她对在场媒体专门提到,现在做大模型的人才可以分为三类,一类是使用大模型的人才,不接触大模型的训练,集中在prompt提示词工程师领域,占比较多,在落地应用过程中被广泛需要;第二类是能做微调训练的人才,技能上容易上手,业界对其有一定需求,“因为如果不进行微调,即使是GPT-4都会在一些非重要问题的回答上表现不佳”;第三类是围绕基础模型训练相关的人才,目前数量最少,需求最高,这类人才又可以细分为:贯穿训练始终的数据分析的人才;与小模型时期技能点趋同的算法人才;能搭建并行系统的人才,后者涉及到工程和并行优化的能力;以及评测方面具备重要经验的人才。

林咏华强调,她不认为培养上述第三类人才是一件十分困难的事情,智源研究院就有一部分AI领域的同事在一两年中从对大模型零基础成长为了一个大模型训练专家,“高的不是技术门槛,而是训练基础大模型的机会太少了”,林咏华坦言,在大模型竞争开始趋于收敛的情形下,国内只剩下包括智源在内的几家大模型团队有机会去训练基础模型。而从零开始训练一个出色的基础模型,比基于已有的基础模型去进行持续训练,难度要大很多,“80%以上的训练难度集中在最开始的1/3过程,”林咏华直言。

以下为界面新闻专访林咏华的内容:

界面新闻:智源研究院是中国大模型的黄埔军校,目前也在大模型评测领域起着至关重要的作用,但在当前的生成式AI浪潮下,你们希望智源本身研发的悟道·天鹰Aquila语言大模型系列,在百模大战中扮演一个什么样的角色,无论是学术端还是商业端?

林咏华:我希望Aquila语言大模型起到一个语言大模型或多模态大模型的基座作用。对于那些没有能力从头构建大模型的任何企业,都可以在智源的开源平台上拿到他们想要的东西,然后去做下游应用。所以我们希望通过开源提供这种技术和资源,包括基础模型、对话模型,也包括各种各样的工具。

我们要坚定地扮演一种基础技术的资源提供方角色,以视觉模型为例,我今天提到的EVA和EVA-CLIP,现在全球很多大模型团队做多模态研究的时候也用我们智源这个模型,这是很好的事情。虽然智源也继续基于EVA打造自己的的多模态模型,但我们更高兴看到,一些更基础性的模型被更多大模型团队去用,甚至有一天他们能打造出比我们更好的多模态模型。

界面新闻:现在业界一直在说,年底之前大语言模型会进入决赛圈,最终初创加上大厂也只有不到8家能够胜出,多模态大模型那边则为时尚早,你是否同意这个说法,这是因为大语言模型的技术路线已经趋近于统一,而多模态那边技术路线百花齐放所致么?

林咏华:我觉得首先,多模态大模型这边肯定是百花齐放,现在谈多模态谁能胜出肯定还早,但大家更多的疑问集中于大语言模型年底是否就要决赛,我觉得还不是。

是这样子,第一,从语言模型本身对于产业落地所要求的能力和质量来看,目前各家还有比较明显的差距。

打个比方,为什么今天落地产业的例子大多都是AI助手,做Copilot,而不做Pilot(Pilot的一个具体例子是自动化的AI agent),原因是大模型的输出达不到工业界的严格质量要求,例如能100%高质量自动生成这一阶段所要的一个描述或代码,如果达到就才将对整个商业落地、工业发挥巨大的作用。

今年上半年,业界说语言大模型可以重构很多商业软件,但今年下半年这种声音没那么强烈了,为什么?如果要真的重构商业软件,那就需要用AIGC产生的这些内容、代码、或指令调用拥有接近100%的准确度,但今天还远做不到,所以都是做Copilot,做助手,至少可以由人类进行监督和调整。

我觉得对于产业落地来说,Copilot只是很小的场景,更大的场景在后面,我相信语言模型后面还有重要的技术迭代。

第二,虽然当前大模型相关企业已有分层迹象,但谁能真正笑到最后或什么是最后,仍是未必。以手机为例,10年前那波手机巨头,因为智能手机的兴起,现在是不是换了一拨么,因此目前大模型竞争到最后还很难说,我觉得它应该是一个持续的竞争领域,关键就看谁能看准技术趋势、紧跟技术迭代、构建技术和商业壁垒。

界面新闻:红杉资本在最近的文章《生成式人工智能第二幕》中反思了几个他们预测错误的问题,其中很重要的一条是,他们预测最好的生成式AI公司可以通过数据飞轮获得持续的竞争优势,但实际上数据的壁垒并不稳固。他们现在发现,壁垒是在客户而不是数据之中。8月31日起国内多家大模型产品直接向公众提供服务,他们实际上也发布的是一种AI助手产品,是一种相对简陋的Copilot,那么这种开放会帮助这几家在大模型迭代上获取什么优势?

林咏华:我想这些模型企业也会收集用户的提示词Prompt,去看他们在哪些问题上面回答地好,哪些上面回答地不好,某种程度上这会帮助他们迭代做出更好的模型。

不过到了现在,大家发现收集用户的使用方式,已经进入收敛期。或者说,仅仅依赖用户的使用来产生数据飞轮,已经远远不够模型迭代所需要的数据量了。

所以这种单独依靠服务开放来提升模型质量的方法,在目前的收效不如此之前预期的大。现在包括智源在内的一些大模型团队,反而从数据的合成方面去尝试更多。通过设计各种数据合成的方法,来加速模型迭代。智源这次发布的Aquila2语言大模型就是一个很好的例子,我们在其中使用了一系列数据合成的方法。

界面新闻:如果说识别率提升、精度突破、榜单排行是早期AI界的主旋律,那现在生成式AI界各家公司自说自话也一阵子了,你比较认同的几组新旋律是什么,换言之,现在外界应该以怎样的维度去衡量这些大模型到底做得好与不好?

林咏华:上段AI时期也就是小模型时代,去定义衡量模型好坏的关键词还算容易,现在给大模型定义哪几个关键字会更难。因为我们还预测不了大模型在能力范畴里到底能做、不能做什么;更直白来说,我们很难预测大语言模型的能力上限。

如果一定要找一些业界Key word,推理能力、泛化能力算是关注比较多的。但推理本身也是很广义的范畴,逻辑推理、常识推理等各有不同,细分情况也很复杂。对于大模型的泛化,大家确实关注,但泛化能力很难用有限的Benchmark(大模型基准测试)去衡量,或者说对“泛化能力”的评测,必须不断外延和变化。

但我觉得对基础大模型而言,还是要回到“基础”二字。

作为基础模型,是否有很强的“二次学习”能力,远比目前大模型在榜单上的评分重要的多。用户使用基础模型,更多是会使用领域数据去进行持续训练,从而产生一个下游的领域基础模型如代码模型;或使用应用指令数据对基础模型进行指令微调训练,从而产生一个下游的应用模型如对话模型。通过智源的训练实践,我们清晰看到,不同综合能力的基础模型,对训练同一批数据的下游模型,出来的效果差异很大。所以我个人认为,能产生更优质的下游模型,才是基础大模型最重要的特质和核心能力。