智源大会巅峰对话:至少在未来5年里,Scaling Law仍将是大模型产业发展的主要方向
《科创板日报》6月15日讯(记者 李明明)虽然大模型爆火,但距离人们理想中的通用人工智能,其本身还有许多科学问题亟待解决。
2024年6月14日,AI行业盛会“2024北京智源大会”在中关村展示中心开幕。在大会上,零一万物CEO李开复、清华大学智能产业研究院院长张亚勤就大模型下一步的发展等关键问题展开思考和对话。
大模型是至今为止人工智能发展最成功的一个技术方向。那么,是什么原因使得大模型如此成功?还有哪些欠缺的地方需要进一步发展?
李开复认为,AI 2.0是有史以来最伟大的科技革命和平台革命,大模型Scaling Law的重要性在这个时代得以凸显,人类能够用更多计算和数据不断增加大模型的智慧,且还远没有触达天花板。
但是,大模型正面临着一些挑战。比方说,如果“仅仅用更多算力就能把它往前推动”是主要方向的话,就会导致只有那些GPU资源丰富的公司和国家能够在这方面胜出。但是,很多国内大模型在部分案例里接近、打平或者偶尔超过了美国的大模型。所以,当下需要关注的是算法和工程创新一体化的推进,以及怎么以这种能力避免进入“盲目堆算力推动模型性能提升”的状态。
此外,大模型还存在记忆的问题、窗口长度的问题、幻觉问题等等,但可以看到的是,当全球如此多聪明的大脑涌入这个领域后,大部分问题不能说被完美地解决,但是都在逐步被攻克的过程中,所以对大模型的未来相当乐观。
张亚勤则从大模型“三个做对了”的和“三个目前需要改进”的来展开。
在大模型“三个做对了”方面,他认为,规模定律Scaling Law的实现,主要得益于对海量数据的利用以及算力的显著提升。再加上现在的Diffusion和Transformer架构能够高效地利用算力和数据,使得“飞轮效应”得以正循环。至少在未来5年里,它仍将是产业发展的主要方向。
其次在大模型中,“Token”是一个基本元素。无论是文本、语音、图像、视频,还是自动驾驶中的激光雷达信号,甚至是生物领域的蛋白质和细胞,最终都可以抽象为一个Token。Token之间的训练、学习和生成是核心环节,这与人们大脑中的神经元工作原理相似,无论执行何种任务,其基础机制都是相同的。
第三,大模型现在的通用性不仅体现在文本处理上,还扩展到了多模态领域,甚至可以生成如蛋白质等复杂结构。此外,它在物理世界(如具身智能)和生物世界(如生物智能)中也有着广泛的应用前景。
在现阶段大模型存在的主要问题上,他认为,首先是效率较低。特别是大模型的计算效率低下问题,与人类大脑的高效性形成了鲜明的对比。人类大脑拥有860亿个神经元,每个神经元又有数千个突触连接,却只需要20瓦的能量,重量还不到三斤;而GPT4这个万亿参数模型则需要巨大的算力和能源,与人脑相比相差1000倍之多。此外,人脑能够根据不同的情境灵活调用不同区域的神经元,而大模型却每次输入一个问题都要调用和激活几乎大量参数。因此,如何借鉴人类大脑的计算方法,在降低计算耗能、提高效率方面进行探索和创新,是一个值得关注的方向。
其次,大模型目前还未能真正理解物理世界,相关的推理能力、透明性以及幻觉等问题都还在深入研究中。大模型它在生成式表述与对真实世界的描绘之间仍存在矛盾。因此,我们需要探索如何将生成式的概率大模型与现有的“第一性原理”或真实模型、知识图谱相结合。他预测,在未来五年内,将会有一个全新的架构出现,这个架构有望取代目前的Transformer和Diffusion模型。
第三个欠缺的地方是边界问题。现在大模型无法知道“我不知道什么”,这是目前要解决的问题,是它的边界效应。