杨立昆最新访谈:AI 很像一个「盲人摸象」的故事
近年来,人工智能(AI)大模型在文字、图像、视频等领域展现了强大性能。然而,它们是否能够 持续学习进而理解物理世界, 实现人类级智能,仍然是一个亟待解答的问题 。
日前,图灵奖得主、Meta 首席科学家 Yann LeCun(杨立昆)接受了印度企业家、投资者 Nikhil Kamath 的专访。
在访谈中,Yann LeCun 谈到了他对于 AI 的独特理解,并介绍了自监督学习、transformer、卷积神经网络等。他还 详述了大语言模型(LLM)在理解物理世界和实现持久记忆方面的挑战以及可能的解决方法 ,并对 AI 的未来做了预测。
他乐观地认为, 目前人类距离通用人工智能(AGI)并不遥远 ,“我不认为我对于离 AGI 还有多远的看法,与你从 Sam Altman 或 Demis Hassabis 那里听到的非常不同。你知道的,很可能在十年内, 但不会在明年或近两年发生 。”
学术头条在不改变原文大意的情况下,对部分访谈内容做了精编。内容如下:
Nikhil Kamath :我们很多人都听说过围绕 AI 的猜想,既有积极的一面,也有消极的一面。今天,我们希望可以清楚地理解 AI 对于所有人来说究竟是什么,我们是如何到达这一步的,以及未来会怎样。
我们先从什么是 AI 开始。
Yann LeCun :好的,这是一个好问题。甚至我们还要问,什么是智能(intelligence)。 在 AI 的历史上,我认为什么是 AI 的问题有点像是盲人摸象的故事。 智能有非常不同的方面,纵观 AI 的历史,人们对什么是智能提出了一种观点,并基本上忽略了所有其他方面。
20 世纪 50 年代,人们认为智能就是推理,那么我们应该如何进行逻辑推理呢?如何寻找新问题的解决方案呢?
人们当时发现,当我们遇到问题时,可以将其形式化为一个特定的数学问题。例如,一个经典的问题是旅行推销员问题(Traveling Salesman Problem):给定一堆城市,如何设计出经过每个城市的最短路径?这种问题可以看作一种优化问题。 优化的本质是寻找一个问题的解决方案 ,通过一个数值(比如路径长度)来衡量解决方案的好坏,数值越小,解决方案越好。
Nikhil Kamath :那么,寻找解决方案与智能有关吗?如果你问我什么是智能并用一句话定义,我会感到目瞪口呆。
Yann LeCun :是的,正确的。这实际上又回到了大象的例子。
Nikhil Kamath :能解释一下这个大象的例子吗?
Yann LeCun :好吧,你肯定知道盲人摸象的故事。第一个盲人走到大象身边说,这摸起来像堵墙。第二个盲人走到大象腿旁边说,这摸起来像棵树。第三个盲人摸到了大象的鼻子,说这是根管子。没有人能完整地了解大象是什么,你会从不同的角度看到它。
因此, 智能的一个角度就是寻找解决方案。 但你知道,寻找特定问题的解决方案只是“大象”的一小部分,只是智能的一个方面,不是全部。
但从 20 世纪 50 年代至 20 世纪 90 年代,当时占据主导地位的 AI 分支基本上只关注到这一点,认为 AI 就是寻找问题的解决方案,就是去“规划”。例如,将一堆大小不一的物体堆叠起来,需要规划堆叠的顺序;或者控制机器人手臂抓取一个物体时,需要规划避开障碍物的路径。这些都属于“规划”问题的范畴。
然而,这一分支完全忽略了感知问题,例如怎样理解世界、识别物体或将物体从背景中分离出来。这些问题在当时并未被重视。
Nikhil Kamath :是的。
Yann LeCun :与此同时,还有另一个 AI 分支也始于 50 年代 。这一分支试图重现人类和动物的智能机制 。动物和人类的大脑通过连接的神经元网络进行自我组织和学习。智力并非自发生成,而是从大量简单元素的网络中涌现而出。
20 世纪 40 到 50 年代,人们开始认识到,智力和记忆来自神经元之间连接强度的变化。大脑通过调整神经元之间的连接强度来学习。科学家基于此提出了理论模型,并设计了能够模拟这种行为的电子电路,试图以此重现智力的机制。你知道,我们可以建立。
Nikhil Kamath :所以,你是说,智能主要是解决某个问题的能力?
Yann LeCun :是的,这是我们刚刚提到的第一个观点, 第二个是学习能力 。这就是 AI 的两个分支。
Nikhil Kamath :好的。
Yann LeCun :所以,关注学习能力的分支在 20 世纪 50 年代末、60 年代初取得了一些成果。但在 60 年代末消亡了,因为事实证明,那些在 60 年代设计的神经网络的能力是极其有限的,不能用于生产真正的智能机器。但它对工程的各个部分都产生了影响,例如产生一个称为模式识别的工程领域。
Nikhil Kamath :嗯,所以你现在说的智能也是系统学习的能力?
Yann LeCun :学习,是的,你需要机器学习来感知,解读图像、声音、语音。
Nikhil Kamath :那么,如果我们需要画一棵 AI 树,AI 是在最上面的,其下是机器学习,机器学习有三种类别,其下是不同的神经网络,再下面是强化工具,比如深度学习,之后是 LLM,这是现在最流行的。
Yann LeCun :是的,正确的结构是顶部是 AI,之后机器学习是解决 AI 问题的一种特殊方法。深度学习,它确实是当今 AI 的基础,然后,神经网络有很多层,这仍然是我们所做一切的基础。再此之下,有几个架构系列,卷积网络、transformer 及其组合,再然后,在 transformer 下面会放置图像或音频识别、自然语言表示这些功能。
然后还有一个子类别,LLM,它们是自回归 transformer。Transformer 有特殊的架构使它们能预测下一个 token,所以能被用来生成 token。这就是自回归预测。
Nikhil Kamath :而且它最适合文本,但不适用于图片、视频或任何其他内容?
Yann LeCun :是的。LLM 适用于文本而不适用于其他事,是因为文本是离散的,因此可能发生的事情是有限的,但如果你想预测视频中会发生什么,可能的帧数之类,本质上是无限的。就比如说,一幅图像,1000*1000 像素,像素又是有颜色的,有三个值,这说明必须要生成 300 万个值。我们不知道怎样用概率分布去表示超过 300 万像素的所有可能图像的集合。
Nikhil Kamath :但这正是大家所关注的事情。
Yann LeCun :这是我们很多人认为 AI 的下一个挑战。基本上,你有一个可以通过观看视频了解世界如何运作的系统。
Nikhil Kamath :如果你要说从视频和图片中学习,这将是下一个阶段,这一阶段会在 LLM 的当前位置吗?
Yann LeCun :不,它与 LLM 截然不同, 我一直直言不讳地说 LLM 不是通往人类级智能的道路 。 LLM 适用于离散世界,它们不适用于连续的高维世界,视频就是这种情况。
这就是为什么 LLM 不了解物理世界。尽管 LLM 在语言方面的功能是惊人的,但它们可能会犯非常愚蠢的错误,这表明它们不了解世界是如何运作的,不了解底层世界。 所以我一直地说,最聪明的 LLM 都不如你家里的猫聪明,这是事实。
那么, 未来几年的挑战,是建立解除 LLM 限制的 AI 系统。建立能够理解物理世界,有持久记忆的系统。
Nikhil Kamath :持久记忆?
Yann LeCun :是的,持久记忆意味着它们可以记住任何事情,将事实存储在内存中,然后在需要的时候检索。
Nikhil Kamath :LLM 现在记不住东西吗?
Yann LeCun :LLM 有两种类型的内存。第一种类型在参数中,在训练期间调整的系数中,它们在这一过程中会学到一些东西,但这并不是真正存储一条信息。如果你在一堆小说上训练 LLM,它无法反驳小说,但它会记住一些关于那本小说中单词的统计数据,它也许能回答问题,关于故事和类似事情的一般问题,但它无法复述所有单词。
Nikhil Kamath :这有点像人类,对吧?
Yann LeCun :你读一本小说,你不可能记住所有单词,除非你花费很多精力,这就是第一种记忆。上下文是第二种记忆。你输入提示(prompt)。
并且由于系统能够生成单词,这些单词或 tokens 被注入到输入中,可以用作某种工作记忆,但这是一种非常有限的记忆形式。你真正需要的是一种更接近于人类大脑海马体功能的记忆。哺乳动物有一种叫海马体的东西,是大脑中心的一个结构。如果你没有海马体,你将无法记住超过 90 秒的事情。
Nikhil Kamath :所以如果 AI 可以预测未来,这是乌托邦还是反乌托邦?
Yann LeCun :这将是乌托邦。因为除了我们的大脑之外,还有一种预测未来的方法,通过规划动作序列以满足特定条件来实现目标,这也许需要积累很多的知识才能够做到这一点,也许拥有人类不具备的能力,因为人脑有局限而计算机能够有计算之类的能力。
所以, 如果这个计划在未来取得成功,可能五年到十年内,我们可以让 AI 达到人类水平的智能。 这可能是乐观的,对吧?
Nikhil Kamath :像通用人工智能(AGI)和人类级智能,你认为很遥远或者不太可能?
Yann LeCun :不,我不认为这些是遥远的。我不认为我对于离 AGI 还有多远的看法与你从 Sam Altman 或 Demis Hassabis 那听到的非常不同。很可能在十年内,但这不会在明年或近两年发生。它需要更久的时间。
而且, 如果只是扩大 LLM 规模、使用更大的计算机和更多的数据来训练它们,这样的方法是行不通的 。我们必须要拥有那些新的架构,那些 JEPAs (世界模型架构),以及能从现实世界中学习、可以分层规划的系统。而不是不加思索一 个接一个产生单词。所以,要系统 2,而不是系统 1。LLM 是系统 1,我所描述的架构,我称之为“目标驱动 AI”,是系统 2。
Nikhil Kamath: 今天我们试图定义什么是智能。我是这样写的:智能是信息的集合以及吸收新技能的能力。
Yann LeCun: 智能是技能的集合,以及快速学习新技能的能力。或者无需学习即可解决问题的能力。 这在 AI 领域被称为 zero-shot。将三者结合就是所说的智能。
Nikhil Kamath: 非常感谢你,Yann,感谢你所做的一切。
Yann LeCun: 谢谢。
访谈链接:
https://www.youtube.com/watch?v=JAgHUDhaTU0&t=316s
整理:阮文韵
如需转载或投稿,请直接在公众号内留言