Meta 人工智能主管:世界模型十年达成人类智能
如今的人工智能模型真的像人类大脑那样进行记忆、思考、规划和推理吗?一些人工智能实验室会让您觉得它们是(这样的),但据 Meta 的首席人工智能科学家杨立昆(Yann LeCun)所说,答案是否定的。不过,他认为通过追求一种名为“世界模型”的新方法,我们可能在十年左右实现这一目标。
今年早些时候,OpenAI 发布了一项它称之为“记忆”的新功能,使 ChatGPT 能够“记住”您的对话。该初创公司的 最新一代模型 o1,在生成输出时会显示“思考”这个词,并且 OpenAI 表示同样的模型能够进行“复杂推理”。
这一切听起来我们似乎已经相当接近通用人工智能(AGI)了。然而,在最近在哈德逊论坛的一次演讲中,杨立昆削弱了人工智能乐观主义者的观点,比如 xAI 创始人埃隆·马斯克(Elon Musk)和谷歌 DeepMind 联合创始人肖恩·莱格(Shane Legg),他们认为人类水平的人工智能即将到来。
“我们需要能够理解世界的机器;[机器]能够记住事物,具有直觉,有常识,能够像人类一样推理和规划,”杨立昆在演讲中说道。“不管您从一些最为热情的人那里所听到的,当前的人工智能系统都无法做到这些。”
勒孔表示,如今像为 ChatGPT 和 Meta AI 提供支持的那些大型语言模型,远未达到“人类水平的人工智能”。他随后表示,人类要实现这样的目标可能还需要“数年到数十年”。(不过,这并不能阻止他的老板马克·扎克伯格问他通用人工智能何时会出现。)
原因非常简单:那些大型语言模型通过预测下一个标记(通常是几个字母或一个短词)来工作,而如今的图像/视频模型则是预测下一个像素。换句话说,语言模型是一维预测器,而人工智能图像/视频模型是二维预测器。这些模型在各自的维度上已经变得相当擅长预测,但它们实则并不理解三维世界。
正因如此,现代人工智能系统无法完成大多数人类能够完成的简单任务。勒孔指出,人类在 10 岁时就学会清理餐桌,17 岁时学会开车——而且都是在几个小时内学会的。但即使是当今世界上最先进的人工智能系统,基于数千或数百万小时的数据构建,也无法在物理世界中可靠运行。
为了完成更复杂的任务,勒存建议我们需要构建能够感知周围世界的三维模型,并以一种新型的人工智能架构——世界模型为核心。
“世界模型是你对世界运行方式的心理模型,”他解释道。“你可以想象一系列你可能采取的行动,你的世界模型将使你能够预测这一系列行动对世界的影响。”
想想你自己脑海中的“世界模型”。例如,想象看着一间凌乱的卧室并想把它弄干净。你可以想象把所有衣服捡起来放好就能搞定。你不需要尝试多种方法,也不需要先学习如何打扫房间。你的大脑观察三维空间,并在第一次尝试时就制定出实现目标的行动计划。那个行动计划就是人工智能世界模型所承诺的关键所在。
这里的部分好处在于,世界模型能够接收的数据量远远超过大型语言模型。这也使得它们的计算量很大,这就是为什么 云服务提供商正在竞相与人工智能公司合作。
世界模型是几个人工智能实验室正在追逐的大想法,这个术语正迅速成为吸引风投资金的下一个热门词汇。包括李飞飞和贾斯汀·约翰逊在内的一群备受尊敬的人工智能研究人员,刚刚为他们的初创公司 筹集了 2.3 亿美元,即 World Labs。这位“人工智能教母”和她的团队也坚信世界模型将解锁出更智能的 AI 系统。OpenAI 还将其未发布的 Sora 视频生成器描述为一个世界模型,但尚未详细说明。
LeCun 在 2022 年一篇关于“目标驱动的人工智能”的 论文中概述了使用世界模型创建人类水平的人工智能的想法,尽管他指出这个概念已经有 60 多年的历史了。简而言之,世界的基本表示(例如一个脏乱房间的视频)和记忆被输入到一个世界模型中。然后,世界模型根据这些信息预测世界将会是什么样子。然后你给世界模型设定目标,包括你想要实现的世界的改变状态(比如一个干净的房间)以及保障措施,以确保模型在实现目标的过程中不会伤害人类(在打扫我房间的时候,可别把我给害了)。然后世界模型找到实现这些目标的行动序列。
勒昆称,Meta 的长期人工智能研究实验室,即 FAIR 或基础人工智能研究,正在积极致力于构建目标驱动型人工智能和世界模型。FAIR 过去曾为 Meta 即将推出的产品从事人工智能工作,但勒昆表示,该实验室近年来已转而纯粹专注于长期人工智能研究。勒昆说,FAIR 如今甚至都不使用大型语言模型。
世界模型是一个有趣的想法,但勒昆表示,在将这些系统变为现实这一方面,我们尚未取得太多进展。从我们如今所处的位置到实现目标存在很多非常困难的问题,他说这肯定比我们想象的要复杂得多。
“即便不需要十年,我们也得需要数年时间才能让这里的一切运转起来,”勒昆说。“马克·扎克伯格一直问我需要多长时间。”