清华大学人工智能研究院名誉院长张钹院士:GPT时代的人工智能产业

8月15日,在中国人工智能学会、清华人工智能研究院、中关村企业家顾问委员会、中关村100企业家俱乐部的大力支持下,由清湛人工智能研究院发起并主办,由盛景网联承办的《大模型时代,AI赋能产业升级与引领》系列论坛于北京中关村全球科创路演中心成功举办。

本次论坛,我们非常荣幸请到了中国科学院院士、清华大学人工智能研究院名誉院长张钹院士,莅临并发表主题演讲。

张钹院士发表了中国第一篇人工智能领域的学术论文、获得中国在人工智能领域的第一个国际重要奖项、领衔成 立国内首个智能机器人实验室、培养了本土第一位人工智能领域博士毕业生,组建中国第一个人工智能国家重点实验室……这些“第一”树立了中国人工智能发展的一个个里程碑,推动中国在此领域大踏步前进。

以下为张钹院士分享全文,enjoy~

01

人工智能产业的发展范式

人工智能产业发展的范式跟信息产业的发展范式非常不一样。

信息产业的发展范式是先建立理论(计算机理论、通讯理论、控制理论等),再把信息技术产业化,以计算机为例,即计算机硬件、计算机软件。最后把这些硬件和软件在各行各业推广应用,实现各行业的信息化。

信息产业之所以发展非常顺利,一是因为有理论支撑,二是因为由信息技术产业化形成的硬件或软件是通用的,市场非常大,可以推广到各行各业去,因此很快就诞生了信息产业的IBM、英特尔、微软。

但是,人工智能没有理论,发展初期先有了两个模型和与模型相关的算法。

第一个模型是大家非常熟悉的知识驱动模型,第二个模型是数据驱动模型。知识驱动模型必须和应用领域紧密结合,应用领域非常窄。像医疗诊断-看病,只能看病,只能看一种病,不能用来做别的。

数据驱动模型也是如此,应用的范围必须与训练数据有关系,训练数据没有涉猎的范围就无法使用。

因此,根据这个模型和算法建立起来的硬件或软件,一定是专用的。在人工智能领域,如果目前有人宣称是普遍“通用”的,肯定是不靠谱的。专用性导致的后果是市场很小,广泛推广应用很困难。这也是迄今为止六十多年,我们没见到人工智能领域的IBM、英特尔和微软出现的原因。

比如,通用智能芯片,目前不具备可行性。只有结合自动驾驶、智慧家居、智慧城市,这样的硬件才能够有市场。

现在,人工智能发展起来的产业,覆盖的范围非常宽。虽然是“专用”的,但是“专用”的都可以在各自不同的领域里发展出来。

斯坦福大学在《一百年人工智能研究》中称, 2015年到2030年人工智能的领域应用前八名依次是,交通、家庭/服务机器人、健康、教育、低资源群体、安全、雇员与工作场所、娱乐。

考虑到中国的特殊情况,我把金融和智能制造加进去。今后人工智能产业从应用领域来讲,分布基本上是这样。

02

大模型时代的人工智能产业

正是由于发展模式的不同,信息科技(包括产业)跟人工智能科技的发展非常不一样。用四个字来形容,信息科技发展可以说是“持续高速”,而人工智能的产业或者科技发展则是“缓慢曲折”。

那么,ChatGPT出现以后,对产业会有什么变化?

首先从人工智能的角度来看,ChatGPT从哪些方面实现了突破。

第一个突破,从信息处理真正转变为人工智能处理。过去处理文本,实际上只处理了文本里所代表的信息形式。通讯也好,控制也好,计算机计算也好,都是对信息的形式加以处理,是把文本当成数据来处理的。

ChatGPT实现了一个转变,对信息里包含的内容进行处理。 现在,ChatGPT处理文本不再是处理数据,而是处理数据里所表示的内容和知识。这主要是因为文本的表示方式从符号变成了语义空间的向量。

人工智能要从信息处理的阶段走向人工智能处理,对文本来讲一定要从处理形式变成处理内容。这是一个重大突破,是真正进入人工智能的标志。

第二,在人工智能领域,大家一直梦寐以求的是通用人工智能的出现。ChatGPT在聊天或者对话的领域里实现了通用性,也就是说你跟ChatGPT聊天的时候,不受领域限制,什么都能谈。这个重大突破,让人工智能向通用人工智能迈出关键一步。

值得注意的是,ChatGPT不是OpenAI通过三、四年时间做出来的,是全世界的科学家、特别是人工智能领域的科学家和工程师经过六七十年努力取得的成果。

这里有两个技术突破,一个就是前述所说的,花了56年时间,使得机器能够处理文本的语义,而不限于只处理文本的形式。

第二个突破,我们经过七十多年的努力发现了一种神经网络,也叫转换器。它的最大特点是可以把很长的文本同时输进去。

过去神经网络文本的输入是一个字一个字的输入,导致只能考虑相邻两个字之间的关系,根本无法理解文本的内容。有了转换器以后,我们可以把整个文本同时输入,GPT-4能够把3.2万个TOKEN(粗略地讲,相当于3万个左右的汉字)同时输入。

这两个技术结合,使得它能够对文本的内容加以处理,这是最关键的。

2018年,OpenAI把两个技术结合起来,花了两年的时间做出来GPT-3,又经过两年时间调整,推出来ChatGPT。

ChatGPT利用大模型实现对文本的生成,我们用同样的办法,即如法炮制去生成图像、语音、视频等。这就是AIGC——人工智能生成内容。换句话说,现在对文本的处理能处理到它的内容,如果有办法把图像跟文本挂钩,语音跟文本挂钩,视频跟文本挂钩,那就等于计算机也可以处理图像、语音、视频的内容。

所以,当图像生成的时候,输进去一定的文本,它就可以按照文本的意思生成出相应的图像,我们就能够控制图像、语音和视频的内容。这就是AIGC的重要性,可以把多种模态集成起来。

简言之,基础模型的特点一是可以处理文本、图像、语音、视频的内容,二是具有一定的通用性,至少在文本处理、图像处理、多模态处理具有一定的通用性,不受领域的限制。这两点我们可以充分利用。

那么根据这两个技术,人类进入了GPT的时代,GPT时代的产业又会如何?

先来看基础模型在医疗健康上的应用。我们输入的信息不限于文本,还包括医学图像等等,通过大模型适应下游的任务应用。这是一个重要的模式,可以在一个模型下做很多任务,往通用化方向发展。过去只能做医疗诊断,只能看某一种病。有这个模型以后,既可以做诊断,又可以做生物医药,往通用化方向发展。

如果我们把应用、把某一个软件置于大模型之上,会发现一个重要的变化就是质量提高了。

原来软件也好,翻译系统也好,医疗诊断系统也好,是教一个白痴去干活。因为计算机原来什么知识都没有,是空的。那么这个软件就有很多缺陷,会犯很多低级错误。

现在,我们放到基础模型之上,相当于让一位高中生来完成任务。因为基础模型有很多基础知识,是受过通识教育的模型。这也是为什么现在好多人去做基础模型的原因,把应用放上去,质量立即就会有很大的提高。

具体怎么放呢?大体是三种方式。

第一种,在原来的通用模型基础上经过迁移,做成垂直领域的模型。第二种,在原来的模型上加一层,去适应、去微调、去应用。

最后一种,带上专业的知识库、专业的检索系统等直接应用,包括紧耦合,松耦合和直接应用。

03

允许ChatGPT犯错误 开放治理同行

大模型毕竟是语言模型,是个软件。具体要干活肯定需要有个执行机构,因此提出了通用机器人的想法,也叫作具身智能——具有身体的智能(Embedded Intelligence, Intelligence with body)。原来的Intelligence,只有脑袋,没有身体,具体的活干不了,所以现在要with Body。

具身智能有两个问题需要解决,这也是基础模型目前还解决不好的。

第一,环境的多模态感知。没有反馈就干不了活,所以必须有反馈。但是多模态感知如何跟基础模型结合?还有很多研究要做。

第二,通用硬件。做一个万能的通用硬件可能是一条路,但肯定不会是唯一的路。我认为,将来的发展方向是要有一定范围的通用性,做一个完全通用、到处都能用、什么活都能干的机器人,重活轻活都由一样的机器来做,性价比并不合适。

ChatGPT并不能解决人工智能里所有的问题,特别是面对不确定性、多变、关键、复杂环境的问题。

而且,ChatGPT的优势是一种输入,多种输出。有创新性的可能,必然也会带来犯错误的可能性。但是既然给了它创新的可能性,让它去畅想,那么就应该允许它有错误。

因此,在做任何人工智能产业的时候,特别是利用ChatGPT这样带有一定通用性人工智能模型的时候,一定会带来第二个问题——治理。

治理包含两个方面,一是对模型本身的治理,一是对人类自己的治理。这里我们主要谈对模型本身的治理。

我们希望人工智能能生成的各种各样的内容,包括文本、语音、图像、视频,符合道德标准、伦理标准和政治标准。但是它一定会输出不符合道德标准、伦理标准、政治标准的内容,这是我们希望它输出多样性所必然会带来的结果。

我们希望它有创造性,就必须允许它有错误。如果不允许它犯任何错误,它就没有任何创新,也就没有任何用处。

因此,对AIGC,开放跟治理必须同时进行,不能治理完再开放,或者开放后再治理。只有边开放边治理,才能够更新地更快。

大家已经看到我们跟国外的差距。虽然中国现在做的系统和GPT-3比实际上差距不大,但跟GPT-4比差距就很大了。

GPT-3到GPT-4只花了几个月的时间,我们就跟不上了。一个本质的问题在于人家是边开放边治理,这一点值得我们学习。

治理的办法,现在看起来我们掌握地不好,因为我们经验少。其实治理就是靠后台,靠人类来做对齐处理。现在很多人有一个误解,认为做标注的人不用高水平。这是错误的观点。做标注的人水平要求很高,因为用什么样的问题做标注,是个大问题。OpenAI公司招募了40多个人,经过严格考试合格后,才能胜任标注的工作 。

这方面我们有所忽视,跟国际有差距。我认为,如果这个问题不解决,也会妨碍大模型的建设。

总结来讲,我认为大模型会给人工智能产业可能带来的变化,有四个方面:产品质量的提高、产业向领域通用性迈出一步、由单任务向多任务方向发展、发展与治理同时并进。