北京智源人工智能研究院林咏华:大模型将从互联网应用逐步走向千行百业

10月26日,在由界面新闻主办的2023 REAL科技大会上,北京智源人工智能研究院副院长林咏华发表了题为《打造大模型技术的“Linux”,为AI未来十年发展打下坚实根基》的主题演讲。

在生成式人工智能的热潮下,大模型及相关应用正在步入研发落地的新阶段。而回望人工智能产业的发展,“质量”成为实现AI落地的“最后一公里”问题,即能否达到产业、工业的发展要求。针对这一点,林咏华的观点是,大模型会比小模型更具挑战。

她特别提到,大模型的训练数据、数据配比、训练数据输入顺序,训练过程中的所有超参设置都没有完全公开,因此难以完全复现大模型的能力和问题;同时,大模型进行算法修改和重新训练的投入极高,使得企业很难对其进行修补。再者,算法、数据和过程都有可能存在“debug”,问题成因难以分析。

这些因素都决定了基础模型将会影响下游模型的能力,做基础模型的企业机构需要不断打磨。

林咏华强调,未来10年,大模型必然牵引人工智能走向美好的星辰大海,但在当下面临多种挑战,包括基础大模型费用昂贵、训练数据集获取不易、评测方法参差不齐、工具碎片化、计算资源日益受限等。

在她看来,开源开放让从业人员得以站在前人的基础上继续前行。智源此前的一系列发布动作也表明,其试图利用开源开放来解决上述产业挑战。

具体到基础大模型方面,近日智源宣布悟道·天鹰Aquila大语言模型系列全面升级,其中340亿参数的Aquila2-34B在多个榜单均表现抢眼。此外,智源将Aquila2模型系列全部开源,Aquila2的创新训练算法、FlagScale框架、FlagAttention算子集以及语义向量模型BGE均已同步开源。

据林咏华透露,智源研究院所开放的全球最大的中文数据集WuDaoCorpora目前已对外开放低风险数据200G,至今已有数万次下载。

评测方法方面,林咏华指出,大模型在生成能力、认知能力、人类思维能力的测评方面都面临着挑战:除少数生成任务外,生成能力仍主要依靠人类评分;认知的边界难以确定;测评人类思维能力需要新的复杂测试集合、定义新的测试方式。

计算资源方面,国内厂商所采用的架构和开发工具链的不同、众多的AI框架、层出不穷的场景等等因素,使得异构芯片间适配工作量大、开发复杂度高、评测标准也难以统一。

针对这两方面的挑战,智源研究院分别推出了大模型评测体系及评测平台FlagEval以及AI芯片评测开源项目FlagPerf。

“大模型已经从语言模型走向多模态,这是技术走向落地的一个重要阶段。”林咏华表示,未来大模型会从互联网应用逐步走向千行百业,“我们希望看到大模型走出数字世界,走向物理世界,走向自动驾驶、机器人等场景。”