“百模大战”进阶 大湾区如何打赢AI追逐赛的下半场

2023年初,ChatGPT掀起大模型热潮,国内互联网厂商也纷纷下场“手捏模型”,“百模大战”风起云涌。

但到了2024下半年,狂热开始慢慢褪去,科技界、学界到投资界进入冷静阶段——反思生成式AI如何落地、商业化,大模型的能力边界和迭代方向。

“从国内的整体发展看,到今年7月底,中央网信办批准的大模型大概有200个,其中只有三分之一是通用大模型,三分之二是行业大模型。我预测未来通用大模型的数量和占比会越来越小,行业大模型会越来越多。”香港科技大学校董会主席、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋在2024大湾区科学论坛上说道。

简言之,通用大模型会逐渐往行业方向收敛,这意味着人工智能和产业的结合会越来越紧密,对实体经济的赋能也会愈加显著。在民营经济活跃的粤港澳大湾区,可以如何挖掘人工智能的新一轮机遇?

11月16—18日,2024大湾区科学论坛在广州南沙举行,包括诺贝尔奖得主、国家最高科学技术奖获得者、菲尔兹奖获得者在内的百余位顶尖科学家齐聚于此,对人工智能等前沿科技话题展开热烈讨论。

资料图片

从通用到行业模型

业界普遍把大模型训练形容为“炼丹”——在Transformer架构基础上,堆百亿、千亿级别的参数,达到一定阈值后,模型的语言理解、推理、生成能力出现一个明显跃升,也就是常说的“涌现”。

但这个过程需要耗费大量算力,烧钱自然不在话下。据国盛证券估计,GPT-3训练一次的成本约为140万美元。OpenAI的财务数据显示,到2029年都恐难实现盈利,到2026年亏损可能达140亿美元,当中大部分的花费要投入到模型训练中。

不止OpenAI,烧钱基本是大模型公司的常态,因而如何实现盈利、完成商业转化,成为横亘在这些公司面前的现实问题。而对业界来说,也要回答大模型除了用于对话、还能拿来干嘛的问题。

“中国训练大模型的速度很快,最后国内会剩下几家企业具备万卡算力,来做真正底层的基座大模型。一旦有这样的通用大模型后,实际上更有意思的是行业大模型。”沈向洋指出,未来在医疗、金融等垂直赛道,有千张显卡就可以做行业大模型。每个企业肯定也要做自己的大模型,在行业大模型、通用大模型基础上加上自己的数据,几百张卡就可以做一个企业大模型,对内提高效率,对外可以提高产品的可用性。

Gartner的问卷调查发现,70%的公司正在投资于生成性AI研究,并将其纳入其业务战略。

今年以来,谷歌、微软和Meta都在开发自己的专有定制模型,为客户提供个性化的服务。通过特定领域的预训练、模型对齐、监督微调,来应用于特定行业。

加拿大工程院院士、欧洲科学院院士、香港科技大学计算机科学与工程系讲座教授郭嵩向21世纪经济报道记者表示,学术界在做0-1的科学发现,不一定能直接产出经济效益。这些年,自己团队通过联合实验室的方法和大型企业建立了密切联系,也和医学院、大型医院建立了合作,对医疗医学建立了更深刻的理解。在这个基础上,才能做出精准的垂类大模型,不久前团队刚发布了四个医疗的大模型,引起了不小反响。这是一种长期的方法,就是把AI的技术、科学计算的公式融入行业,和特定领域的知识融会贯通,这样或许能够产生真正有效的大模型。

大模型正在“向下扎根”,这无疑是产业生态活跃的大湾区优势所在。

中国科学院院士、深圳大学校长毛军发认为,珠三角最重要的优势就是民营经济非常活跃,创新创业的氛围应该说是全中国乃至全世界最好的地区之一。人工智能技术产业化无非就是两种模式,一种是AI+X,另外一种是X+AI,X就是产业应用,而且毛军发认为X+AI可能更重要,应该由各行各业的企业、企业家对人工智能提出需求,并寻找到相关应用落地。

应用层正是大湾区人工智能的主要发力领域。就以广州为例,丰富的应用场景已经吸引了一大批人工智能企业,涌现出云从科技、文远知行、极飞科技等明星企业,它们在自动驾驶、智能农业等不同领域走出差异化发展之路。

关注“卖铲子的人”

业界常言,人工智能的发展有三要素——数据、算力、算法。算法决定模型的准确性和效率,数据是养料,决定内容输出的质量,算力则是铲子,是训练大模型的基础。

沈向洋提及了一组数据,从2019年到现在,每一年出来的最新大模型所需要的算力和前一年相比,刚开始是以每年翻六七倍的规模在增长,最近几年稳定下来,大概以每年翻四倍的增速在增长。可以想象,算力需求一年翻几倍,十年下来这个数字会非常夸张。因为大模型对应大量参数,需要的数据量也在增加,训练模型的算力需求也会激增。所以在整个AI浪潮中,最大的赢家是英伟达。

“这几年我经常讲一句话,叫‘讲卡伤感情,没卡没感情’,算力是人工智能发展的门槛。”沈向洋点出。

过去两年,英伟达市值翻了10倍,一度登顶全球市值之王,足见算力在人工智能江湖里的地位。

但业界也知道,依赖单一一个“卖铲子”的人是有风险的,因为它可以垄断供货、操纵价格。

人工智能与数字经济广东省实验室(深圳)协理副主任黄哲学表示,我们面临的一大挑战是,英伟达限制GPU出口,以前有卡可以建大规模集群,现在不一定建得了。要解决这个问题,还是得走自力更生的道路,立足于国产算力。所以我们鹏城云脑,从II到III都是由华为供应自主芯片的。

同时,解决国产算力问题最主要的还是生态问题。黄哲学进一步指出,我们现在用的很多大模型、开源软件都是从国外来的,大部分是基于英伟达的。自主创新之后,因为芯片改变了,底层的一些算法就不一样了,所以我们要开发类似英伟达CUDA的系统,可以适配国外的软件,同时也可以自主研发自己的创新应用,这样来解决算力的问题。

着眼大湾区,深圳正大力建设国家超算深圳中心、鹏城云脑、腾讯云等算力基础设施。此前IDC发布的《全球计算力指数评估报告》显示,中国的算力产业规模和多样性目前正持续高速增长,2018年至2022年,深圳的算力规模位居全国前三。

去年5月,鹏城实验室首次对外发布了中国算力网计划。这次大湾区科学论坛上,中国工程院院士、鹏城实验室主任高文介绍,作为国家重大科技基础设施,鹏城云脑Ⅱ已在IO500全球总榜单中连续8次夺得魁首,建设中的鹏城云脑Ⅲ建成后,算力规模将达到16000P,相当于832万台家用电脑算力之和。

“大模型并非无所不能”

今年6月,牛津大学发布研究报告《Theory is all you need》,标题上和大模型的开山之作《Attention Is All You Need》相呼应,但牛津的报告则抨击了大模型为代表的AI局限性问题。该报告指出,人类认知的本质是“理论驱动”的,人类不仅能够通过现有数据得出合理推论,更能基于假设、直觉以及跨领域的联想,提出具有前瞻性的创新想法。但大模型的本质更接近于对已有知识的模仿,而非对新知识的原创性探索。

沈向洋也认为,大模型虽然做出来了,但是不可解释,也不稳定,就出很多的问题。人们认为智能有限,似乎大模型出来之后,智能就出来了。但同时,很多人也在怀疑,现在这样的一套体系是不是真的可以走很远。去年,自己也在香港科技大学组织了一批科学家去探讨,“涌现”背后的数学原理到底是什么,试图打开大模型的“黑盒”。

清华大学教授李宗鹏也向21世纪经济报道记者表示,大模型出来后,很多人以为它可以用来做很多事情,颠覆整个经济形态,但是实际上大模型并非无所不能。就说AI幻觉这个点,从数学的角度看,这是大模型永远摆脱不了的问题,因为自然语言处理是基于概率生成和输出内容的,从这一点看,就没办法确保百分百准确。所以AI可以做艺术、文本创作,但是在做需要特别精确的事情时,肯定会存在局限性。

现阶段,大模型依然在沿着规模法则(scaling law)在发展,也就是堆叠的参数、投喂的数据越多,模型就越强大。但质疑的声音不时出现,即使互联网的数据浩如烟海,但迟早会有用完的一天,而且靠堆参数训练模型,这样的方法会越来越不经济。规模法则还是一条可行的路吗?

在郭嵩看来,从目前来看,顶级的科技公司还是非常坚信规模法则,相信随着参数、数据有指数级的增长,涌现的能力也会有显著增强,也就是说投入和产出大致还是成比例的。至于未来要如何去颠覆、下一个规律是什么,就要有待科学界和业界去探索了。但可以关注的是,李飞飞教授提出来的空间智能,她认为这是AI的下一个方向。简单而言就是,现在的大模型还停留在语言层面,但语言是离散的,也难以形成对物理世界的真正理解,所以结合对空间、时间等深层尺度的理解,才能往通用人工智能(AGI)更近一步。