智见|林咏华:基础大模型是AI中的“CPU”

撰文:李姝

随着 ChatGPT 等大模型的发布,全球人工智能掀起了新一轮发展热潮,国内外大模型技术研究与产业发展日新月异,通用人工智能进入全新发展时期。

在2023智源大会上,大会除了邀请到了图灵奖得主 Geoffrey Hinton、Yann LeCun、Joseph Sifakis、麻省理工学院未来生命研究所创始人 Max Tegmark,OpenAI 首席执行官 Sam Altman 等200余位人工智能顶尖专家以国际视角共话通用人工智能发展面临的机遇与挑战外,智源研究院发布了全面开源的“悟道3.0”系列大模型及算法,报告了在高精度生命模拟和有机大分子建模方面的最新进展。

此次悟道3.0包含的项目有「悟道・天鹰」(Aquila)语言大模型系列、FlagEval (天秤)大模型语言评测体系以及「悟道・视界」视觉大模型系列。此外 FlagOpen 飞智也带来了开源大模型技术体系最新进展。

作为北京智源人工智能研究院副院长兼总工程师,林咏华谈到此次智源发布天鹰有两个重要的亮点。

第一个亮点是高效,主要体现在两方面:一方面通过大量对训练架构的优化,提升了训练的吞吐量;一方面通过大量对数据、数字的精细化处理和清洗,达到用少的数据量来训练出一样性能甚至性能更好的模型。

第二个亮点是通过这次打造迭代循环的生产线和流水线,能够对模型的质量、安全性、价值观以及所缺乏的能力很快速的进行调整和提升。这两个亮点构成了未来大模型创新发展的良好基座。林咏华还谈到,基础模型已经成为AI大模型时代,单一“产品”投入最大的部分。打造基础大模型,就是在打造AI中的“CPU”。基础模型很大程度上决定了后续模型能力、产业落地等因素。

大模型评测体系搭建时最核心的要素是什么?智源研究院发布的这套评测体系跟企业会有什么样的合作,以及具体的评测流程是怎样的?国内外开源生态的差距如何?智源“悟道”和LLaMA在发展战略上相比,有哪些独特之处?带着这些问题,本站科技与林咏华进行了深入交流。

以下为采访全文:

提问:智源发布了一整套评测体系,您在这套评测体系搭建时最核心考虑哪些方面?

林咏华:这个评测体系是三个维度、600多个评测的子任务。

首先需要考虑的是要满足文字语言的理解能力,所以有时候评测体系里有很多理解能力的任务在里面。

其次,现在咱们的模型已经从理解变成了生成模型,所以能够应对各种任务之下的生成能力是我们第二个要去考虑的。但是它还有更往前的是它的认知能力。因此,我们会把它作为一个人类助手进行考究,例如它的认知能力需要哪些维度的提升,包括代码的编写、改写以及帮助人类做计划甚至组织文字等等。

最后,我们还会有安全和伦理的评测在里面。目前我们是从这三个维度去考虑和实施。今天我们在“天秤”评测体系还没能做到,也是最后一个台阶,即人的心智评测。这有很多心理学的东西在里面,这是很难的一个话题。未来我们会更多跟心理学进行交叉融合,去研究和探索怎样把类人类的心智评测也能做到。

提问:我们这套评测体系跟企业有什么样的合作?它们大模型使用我们这个评测体系的流程是什么样的?

林咏华:现在我们有两种模式,一个是在线,一个是离线。所谓在线评测,因为我们已经开源API和例子,它只要接入API和例子,就可以在上面申请做这样一个评测。那个模型是运行在这些企业和被评测团队自己的环境里,调用API来评测。

第二类是离线评测,离线评测更精准、更可信。企业在我们的平台上上传它的被评测模型,我们平台自动拉起评测的环境,在我们平台的算力来帮助它完成整个评测,这是更细、更可靠的评测方法。

提问:小模型企业和大模型技术怎样结合以获得更好的发展?

林咏华:我把这种结合归纳成三点,我加入智源的前10年一直做小模型,加入智源之后走入大模型赛道。所以从小模型和大模型的结合,或者大模型怎么帮助小模型企业发展来讲有三个维度:

第一个维度,对于小的AI模型来说,它可以把原有的算法进行更新,使其使用起来更加高效,可以大大帮助企业把原来的算法进行更新换代,节省产品成本。例如在计算机视觉方面,CNN为主的卷积神经网络已经用了很久,但是transformer出来之后,基于transformer同样的视觉分类,比如大家经常听到的VIT。我做过对比实验,视觉领域以前我们一直用ResNet-50,另外一个是VIT,VIT是诞生于大模型时代的一个视觉模型,它要能达到一样训练后的性能只需要四分之一的显存,也就是说用VIT去训练视觉的分类。另外,上线推理的速度,它是ResNet-50的大概只有60%,这是个典型的例子,是计算机领域的小模型。

第二个维度,利用大模型时代新的算法和能力,可以催生以前我们想做但受制于当时小模型时代而落地不了的方案。举个例子,CV领域很多行业落地的场景是数数,例如我的货架上有多少瓶可乐,我的仓库里有多少瓶油。以前这个事情一直做不好,因为通过传统的方法,它的精度达不到,稍微远一点点它就算不出来了。SAM模型能够通过大模型海量训练数据,分割键盘上的一颗颗按键,加上智源研究院推出的分割模型SegGPT,它的能力是如果我想把所有叫“可乐”的东西都抠出来,点一下某瓶可乐,它就把所有的可乐都出来。

当我们把这两种大模型技术结合起来时,可以做到高精度的按需来数数的能力,这个就很好的解决了过去这么多年传统的小模型在CV领域没能解决的很重要的产业落地的问题。

第三个维度,应用大模型中的小模型。我们在这次开源里放进了量化实践,可以做到4比特量化,量化之后这个模型尺寸只是4G的尺寸,这个意味着什么?现在有很多新一代边缘侧小的推理芯片都已经可以做到8G的显存了,意味着这种大模型中的小尺寸模型就可以放进去。这种边缘侧的这些芯片可能只是一二十美金一片,现在已经大量出现在很多应用领域,这也是很多传统小模型赛道公司可以做的。这是我认为的第三个维度,把大模型里的小模型应用进去。

提问:智源“悟道”和LLaMA在发展战略上相比,有没有中国的特有之处?

林咏华:我们在中国比较在意数据质量,强调希望中文内容90%多是来源于国内互联网。因为毕竟国内互联网的特色是有很好的管理方法,有互联网许可,发在互联网上的东西都是符合规范的。这是一个重要的跟LLaMA不一样的地方。

至于发展战略,这就看主体差异了,我们与Meta开源战略不同。Meta把LLaMA研发出来,它本身有自己商用的那一套,贡献给学术界做开源开放的研究探索。因此它发布的是非商用的协议,希望能够驱动纯研究的探索,而不是驱动商业的。

首先,智源是个研究机构,希望推动学术发展,但同时智源承担着作为国内重要的AI大模型的牵头创新体,我们希望早日看到大模型真的能够产业落地,而不是只停留在研究界。

其次,我们很清楚我们会持续迭代模型,不仅是不同的尺寸、不同的形态,甚至是同一个尺寸、同一个形态、同一个模型下,我们仍力求两周后的版本比今天的版本更优秀,这也是我们帮助这个产业打磨好大模型往前走的道路。

提问:智源开发“悟道”的时候,是如何进行数据训练的?

林咏华:智源有数据研究团队,并且是我们2019年时就已经开始建立的团队,它们一直持续的以合法的形式积累互联网上的中文语料,就是“悟道”数据集。“悟道”数据集在我们内部一直是更新的,持续到今天,这是我们自己采集获得的一个重要来源。当然,也有一些外部公开合法获取的数据,但是那个数据拿回来要经过清洗。

但是相对于英文数据,我们严重缺少的是重要的高质量的数据,如中文书籍类的数据、中文文献类的数据等等。在中文世界,它没有像英文世界那么开放,英文世界已经有这些做好的数据集,但是在中文世界没有。中国的文献集聚在各大出版社或者各个文献平台。

由于智源是个中立的非赢利机构,所以在北京市政府及相关机构的支持下,我们也获得了一些重要的数据机构,愿意把高质量的数据给到智源让我们训练这个,因为它知道智源不是拿它赚钱,而是回馈产业。

提问:现在是不是类似BAT这样的公司掌握越多的数据,它们就一定在这个“大模型”食物链最顶层?

林咏华:我觉得是这样的。像大的互联网公司,如果它们自己的模型是应用在它们自己的应用领域,无疑它们拥有的数据是最多的。例如小红书、字节,它们有最多的视频数据或者图文数据,是互联网这种类型的,它们开发的模型如果是服务于它们的应用领域,无疑是最多的。但是放眼国内各个行业所需要的基座模型,光有这种数据是不行的,还需要很多知识性数据,缺乏的那些数据也没在它们那。类似天鹰这种最基础性、最通用性的模型,还是需要各家力量一起,可以把数据开放、合理使用的问题去解决。

提问:大模型在目前应用过程中会产生一些杜撰的问题,您怎么看这个问题?解决的路径是什么?

林咏华:基于大模型有很多随机与概率作为理论的基础,所以很难百分之百消灭这个事情。我们需要用不同的方法,让这样的发生尽量的减少。

从研发角度,有一些是现在可以做的事情,有一些则需要研究。

现在可以做的事情:第一还是数据问题。现在海量数据让模型训练时,有可能海量数据里对于某个概念或某个认知,里面同时存在两份定义,这两份定义有矛盾或者有差异。打个比方,医学名词,有专业的医学典著里的定义,也有可能出现在某些名科上,所以本身在训练语料里可能出现对同一个事情不同的声音。因为太海量了,所以我们一直在做过滤,尤其对重要的领域、严肃的领域,我们需要过滤掉不正确的定义或者有偏差的定义,尽量有比较官方的定义,而避免出现我问一个问题,它看到有两个答案,也不知道回答哪个答案,所以第一是需要从数据的角度去做回答功夫。

第二个是解决一些事实性的问题。现在比较有效的方法是叠加外部知识的增强。打个比方,怎样通过大模型技术和检索技术的结合,把外部的数据库、外部的知识库和外部企业重要的信息系统打通,因为我们不可能把所有的知识、重要的条例等等全部让大模型去学,并且效率可能也不够、不好,这是个重要的研发领域。但现在用大模型和检索技术结合,把外部的知识体系引进来,这个是切实可行的。

第三个则是还需要在研究中不断摸索。现在有一些研究学者在不断探究怎样修改模型里的结构,包括一些基础理论,让它可以减少不确定性。目前,第三点还在研究里摸索,没有像前面第一步、第二步那样切实可行。

提问:之前业内观点认为TOP模型变得越来越闭环,他们说GPT3.5很详细,但是GPT4.0一直没有公布,您怎么看TOP模型未来开源和闭源的,思想搏弈是为什么?

林咏华:我觉得这里没有对错,更多是主体和背后的机构的诉求。因为现在TOP模型只能是互联网大厂或者特别有实力的机构才能做。他们投入了那么高昂的经费去做,比如千亿模型需要大几千万,这种情况下,本身它是个商业机构,它决定闭源这个战略是很正常的,因为它要考虑怎样让这个投资可以有回报,所以站在它的立场是一个很正确的决定。

对于智源的特殊性来说,因为我们是中立的研发机构,又是非赢利的,又是在科技部和北京市支持下发展。发展过程中,智源希望对产业有更多技术影响和回报,所以这决定了智源通过开源,尤其是商用可用的开源去做。

所以这里没有对错,而是主体本身的性质来决定。OpenAI也不是第一天就闭源,它当时也是开源,但是当它面对跟微软达成合作,就不得不做这样一个选择。

提问:一些企业基于开源生态去训练模型,能够发展成为TOP模型吗?

林咏华:我觉得是可以的。第一,今天国内的某些有资金实力的互联网大厂,也是基于开源继续往前去走,做它认为自己业务和应用所需要的TOP的模型。

第二,这些年AI领域受益于开源,如果没有开源,AI不会发展到今天,每次AI都是站在别人的肩膀上往前走。我相信,基于开源去做,可以让大家走得更快。

提问:我国目前有超过30个城市建设或者提出建设智算中心,其中近10个城市智算中心投入运营,为当地各行各业提供算力支撑,这对我国AI产业发展有怎样的作用?

林咏华:这两年不断推动和发展智算中心,包括利用“东数西算”。我们欣喜的看到“东数西算”慢慢有些节点,因为“东数西算”不是一开始就做智算这块的,我们所定义的“智算”需要有AI加速计算能力。在过去两年大模型的拉动下,有越来越多“东数西算”的节点,把它在新的数据中心打造成智算中心,这对AI产业发展尤其国内的产业发展很有帮助。

这里一方面有充沛的算力,更重要的是它这样做可以帮助拉动我们AI算力的成本。因为大家要知道,在AI算力方面,无论用英伟达,还是国内新的AI芯片,这里最后的使用成本有很大一部分是电费。这个电费基于不同芯片的能耗比、不同区域电费的高昂,通常会占到使用成本的大概10%,甚至更高。但是咱们国内城市电费的差异可能差好几倍,所以如果在电力能源充裕的地方和电力电费更低的地方去发展智算中心,无疑会大大降低大家的算力成本,这是很明显、很有必要和很应该做的。