张亚勤对话朱云来:大模型的发展与挑战

(图片均源于清华大学智能产业研究院)

本文由新经济学家智库根据7月7日上午,中国工程院院士、清华大学讲席教授、智能产业研究院(AIR)院长张亚勤与原中金公司总裁朱云来先生,出席2023世界人工智能大会投融资主题论坛发言实录整理,略有删改,内容未经本人确认:

主持人: 我还拿了张纸准备问题,但是其实我说未来主持人的工作,尤其是这种论坛主持人的工作,其实应该消亡。按理说应该输入主持的会议的公司是谁,嘉宾是谁,然后找个AIGC生成应该问这两个嘉宾什么问题,这样像我这种往旁边一坐还浪费一瓶水的人就可以消失了。所以今天最主要的是要请这两位大咖给我们讲讲到底我说的未来,这种情况是不是就真会消失,社会的效率是不是会变得更高?

当然像我们这种以说话为生的职业是一部分,中国还有无数的跟制造业相关的实体经济到底在人工智能如此发展的将来会产生一个什么样的变革,然后因为今天是投融资论坛,我相信下面有很多的朋友其实都会未来在考虑投资相关的行业,但是投资这个行业到底要关注哪些问题?今天我们要有请两位大咖做出一些研判。

首先我想问今天的这个问题,我觉得主要的因为时间有限,主要是分在两个方面,其实第一类的问题就是跟人工智能未来发展相关的问题。第二类问题是跟挑战相关的问题。

所以我想请问两位大咖,第一个问题到底目前说的这种大模型热,如此之热导致基本上我在过去的三个月之中,参加的会有一半是跟人工智能相关的,似乎不谈人工智能,尤其是不谈目前以Chagpt为首的人工智能,就要玩完。第一个问题就是到底目前的大模型是不是一个one thing for all的解决方案,它到底有没有所说的那么的powerful,所以我想先请张院士,您先帮我们讲讲这个问题。

张亚勤:的确最近一直在谈大模型,谈AIGC它的能力的确很强,也是技术大的创新也是了不起的。从工程特别是系统方面的一个成就,我讲讲它的局限性,因为会上很少人讲它的局限性。

那么大家看到GPT4出来之后确实有很多问题,首先是时效性,你问它Chatgpt什么时候发布它不知道,因为它只有2021年之前的语料,但是现在Chatgpt4有更多的这些实时的信息。

第二点是它的准确性,它经常会有一些不实的信息,有一些幻觉。第三点是效率,整个大模型,整个大的系统需要大的算力,效率比较低。第四点是它对隐私对于知识产权的保护,透明性这方面有很大的问题,我稍微详细讲一下。

首先我们不清楚局限是为什么,比如说是由于一维的,单方向的自回归模型,它本身算法框架的问题,还是通过更好的对齐可以解决的,也有一种可能性。算法本身没有办法解决错误的信息和不实信息,它本身是需要有更多的创意,可能它没法兼顾,我们现在不清楚这个局限性。

另外效率我们都知道,就是咱们这个人的大脑是最高效的,进化几十万年的这么一个智能体,人类大脑拥有860亿个神经元和近1万个突触,却只需要20瓦的能量,重量还不到三斤;而GPT4这个万亿参数模型则需要巨大的算力和能源,与人脑相比相差1,000倍之多。所以如何降低计算耗能,增加效率是一个大的问题。

的确你如果看一下现在不管微软用的Chatgpt也好,还是OpenAI,基本上很难大规模商用,目前可能至少它的效率要高10倍才可以。

再接着讲很多的局限,包括比如说用到物理世界,用到生物世界,用到金融世界,比如说core banking,核心的银行系统里面都会有这些问题。我一直在讲我们大模型当然很重要,垂直的一个横向的语言模型很重要,但是我们在用到行业的时候,一定需要更加的面向行业的垂直精准模型。例如在无人驾驶领域,需要低延时、高安全性的精准模型,并不需要擅长作诗作画的模型。在生物领域,需要专注于研发能够处理蛋白质结构等生物语言的模型,而不是包含互联网上其他冗余信息的模型。只有这样才能提高模型的效率和准确性,满足用户的需求和期望。所以大模型很重要,但是我们还有很多别的东西也需要。

主持人:请朱总您再帮我们补充几句。

朱云来:因为大模型前一段时间出来的时候确实是有非常大的轰动,包括像你刚才讲想偷懒,主持人你就不想做了,然后我现在回答问题,我也想偷个懒,干脆请GPT来做一个回答可以了。

GPT从它的出现,应该还是有一个非常大的进步,至少咱们从投资界上也可以看得出来,之前投的一大批可能相比之下就逊色很多了,但是GPT它到底能够好到什么程度呢?

GPT它是一个很重要的突破,本来应该是用循环神经网络,亚勤刚才也提到的自相关自回归的作用,但是模型从理论上更完整,但是解释起来太麻烦,实际上还不是神经元的个数,860亿个,但实际上是他每一个神经元,理论上是可以跟另外一个神经元,应该是860亿的阶乘,这个复杂度是根本无法接受。所以GPT它最重要的一个贡献就是引入了一个自注意力的机制,大大的简化了运算。

这个方法能one thing for all吗?当然可能还在improve,但是可能也就是因为用了注意力的机制,就把本质的关系是简化了,所以它因此可以得出结果来了,可以处理大量的数了。但是还有可能过于简化了,所以它会丢失掉很多信息,因此它还是不够精确,它不够系统的模拟人的思维。这也就是说对它的未来的应用的潜力有一定的限制。

主持人:我觉得正好是往深里讨论一下这个问题,因为我们说任何的技术其实都有边界的问题,比如说我们在今年的很多中国上市公司的路演的过程中,有很多投资人也都问这个大模型,能解决全球目前断链情况下,新的产能的快速布置和新的无人化工厂的快速增效,这是中国的投资人特别关心的问题,这个问题也想请张院长和朱总你们看看能不能帮我们回答。

张亚勤:我感觉因为这个问题太广义了,不管大模型也好,整个人工智能对每个行业,包括你刚才讲的制造业,包括我们金融行业都会有大的一个生产力的提高。

人工智能带来一个大的变化,就是很多地方不需要人了,这个当然对工作是另外一个挑战。无人车无人工厂整个流水线,然后包括一些脑力的劳动,任何可以重复的,有固定规则的,有固定程序的,这些脑力劳动基本上都会消失,所以这个会是一个大的冲击,也是大的机会。

朱云来:我也补充一点,从制造业这些来讲,因为我觉得它很多是一些相对有限的应用场景,这个还是可以有系统性的一些改进。相比之下,当然GPT出来以后给大家看到了另外一个维度,在一个综合性的维度上,它也大大的超出了我们过去的想象和看到的实力。它能够根据你的一些指示,做出一些非常系统综合的归纳。

它有了这样一个系统的突破,但是我们刚才也讲了,从它的局限性来讲,它可能又简化的过分了,因此它的普适性也降低了。所以还是需要有一个新的阶段以后,可能才会真正接近通用人工智能的能力。

另外一个问题我也是联想到大家都担心的,如果真的机器达到了这么好的程度,我们人怎么办?

其实后来我也在想,假如不是未来了,今天通用人工智能已经把人都代替了,对我们社会会有什么影响?现在看是谁掌握了这种通用的人工智能技术,它把所有的工作都做了,就把所有的钱都赚了,然后其他人大量的失业,然后无法生存。其实我觉得可能到这时候我们应该是换一个角度了,就是社会的治理结构是谁来决定?是我们社会的人来决定。

既然通用机器人什么都能干了,你去干活我就可以不用干了。在这个过程中间,如果你现在还不能全部都干,那么剩下你干不了的我来干,你能干的我都让你干,我们可以多休息了,或者是减少工作时间,或者是我们去做其他的更有创造性的工作,可能最终我们要想到,当科技迅速发展以后,其实是变成我们社会的治理结构治理机制的重新设定,我们需要系统的来讨论这些问题。

科技带来的进步的好处应该怎么返回到社会,返回到人,实际上相当于一种新的分配机制了。这个是我们过去没有系统考虑的问题,我们需要在未来系统考虑的问题。

主持人:感谢朱总和张院士刚才问的关于发展和能力边界的问题。下面我代表台下的各位金融圈的朋友,想问问一些跟挑战相关的问题和投资机会相关的问题。因为很多朋友在讨论的时候都提到大模型需要这么多的资源,这么多的芯片,这么多的钱,是不是只有大的平台型公司,包括国家可以成为核心玩家,甚至是唯一的玩家。我想请问两位大咖,你们怎么看这个事情因为到底创业有多少机会。

张亚勤:我觉得整体大模型出现对创业公司是一个机会。我一直把横向的大模型比喻成为AI的一个操作系统,有了这个操作系统之后,我们还需要我刚才讲的行业的垂直模型,上面可以开发新的应用,所以支持大的横向的系统需要有大的数据算力,然后需要的云的系统支持。

很多家有商业的这种大模型,有开源的大模型,但是我做一个创业公司,我很多的事情不需要自己做了,我可以调用这个模型。就像有了云之后,过去没有云的时候,你每个小公司都得自己买服务器,有的时候还要有IT的人员,有了云之后你就不用做这事了。所以整个来讲对于我们创业是一个大的机会,门槛变得更低了。

朱云来:我也补充一点,从这个系统的发展,我们过去的最典型的两个场景,就是大一点的平台比较成熟的公司资本雄厚,微软就是这么一个例子,它非常强大,无论是技术资本各方面,是不是有了这样的公司,其他的小公司就没机会了,或者其他小公司就不需要了。

我也在想这个问题,其实平台是有它存在的道理,也确实有它存在的优势。甚至是科技进步的好处实现的一个很好的机制,但是反过来讲也确实有这个问题,就是作为一个平台,它很可能比较稳定,在某种意义上来说,如果没有人能超过它的时候,它自己就变得惰性了,就不想改进了,也不需要改进了。

小公司它有一帮热情的人员,然后特别想做点什么事情,想证明自己,想实现一个设想或者等等,所以它非常有冲劲。而且长远的一个社会,如果没有不断的这种进步的冲动,可能社会很快也最后就变成趋于稳定了。

所以从这个角度来讲,小公司的作用也非常重要,另外它可能客观上也往往更具创造性。对于大公司有它带来的系统综合性的很多好处,但是他的惰性,他的垄断,防止它的过分垄断,这是你需要把握的一个度。反过来这些小的公司,你要给它一种保护鼓励的机制,我觉得这样就变成了一个相对比较良性的一个环境,平台和小公司都可以有各自生存的意义,整个的结果是让社会能够更系统的更快的有进步。

主持人:我们读书的时候,计算机至少还有两款芯片,三款芯片可用,但是现在似乎人工智能的芯片只有一家是比较成熟的,就是关于在芯片和算力方面的限制,我不知道张院士和朱总你们怎么看,这会影响到中国整个行业的发展,这会是一个受限制最大的地方吗?

张亚勤:人工智能发展有四个大的因素,一个是数据,一个是算法,另外就是算力和人才。

算力方面的确可能以后是最大的挑战,因为最近其实我想最多的也是算力,这个问题当然比较复杂,也牵涉到地缘政治。

如果最终算力成为大的限制的时候,我们一定要找到别的途径,包括比如说一些新的模型,新的算法、新的框架,如果你们看一下,我们现在最大的创新其实是在手机里面,包括最先进的芯片,最低能耗的芯片,都在手机里面,因为手机里面它有这个需求,我要越来越多的性能,就一定要低功耗。

所以如果以后算力变成最大的一个限制,我们会有新的一些方法。我个人认为这个都会有一些挑战。我们这些信息语料是足够多的,然后算法跟全世界同步,甚至是领先的。

我还要再纠正一个观点,现在这个算法其实不是美国发明的。其实在过去的10年深度学习,特别过去的5年,很多特别创新的算法,原始的算法是中国科学家完成的,包括在国内的华人企业的科学家完成的。

主持人:谢谢谢张院士,解了我们台下很多投资人的很重要的惑。

张亚勤:我再加一句,刚才朱总讲的创业公司,每一个大的平台,一个新的时代,都是小公司创业公司扮演重要的角色,微软小公司、谷歌小公司,他们开始的时候都是小公司,所以我觉得不要去低估小公司的作用。

朱云来:我想算力这是一个基础,是芯片的问题,但是算法也是另外一个维度,这俩是相辅相成的。而且常常一个好的算法,你可以把算力的需求差上多少,多少钱多少亿倍,所以它可能最终是这两个东西的一种平衡。可能最大的产出其实还是在算法。

张亚勤:我一直用我们的大脑作为一个例子,就目前整体的算法不管是效率也好,它的整个机制也好,都差得很多。

比如说用ChatGPT4,你基本上问一个简单的问题,它会激活大部分的参数,上万亿的参数。其实我们人在对话的时候不是这样的,我现在跟你对话,可能用了1%的参数,用了某一个区域的神经元,所以我们效率很高的。怎么样更好的理解我们大脑这个原理,现在这个算法根本是做不了的,所以我觉得还有很多的空间可以改,尽管现在做的了不起,但是改善的空间很大。

还有另外一点就是我们现在做的这事主要还是用大数据这个模型,但是我们人类很多的通过DNA来的,先天具有的东西,这个是不需要去每次学习每次推理的。包括我们的知识体系,这些就已经形成体系。如何将大型知识图谱和第一性原理结合起来,探索多模态的融合统一,也是未来的一个重要发展方向。“42公里的马拉松我们现在只跑了5公里,未来还有无限可能。■

入群了解更多经济学观点与前沿动态