☰

杨立昆最新访谈：AI 很像一个「盲人摸象」的故事

近年来，人工智能（AI）大模型在文字、图像、视频等领域展现了强大性能。然而，它们是否能够持续学习进而理解物理世界，实现人类级智能，仍然是一个亟待解答的问题。

日前，图灵奖得主、Meta 首席科学家 Yann LeCun（杨立昆）接受了印度企业家、投资者 Nikhil Kamath 的专访。

在访谈中，Yann LeCun 谈到了他对于 AI 的独特理解，并介绍了自监督学习、transformer、卷积神经网络等。他还详述了大语言模型（LLM）在理解物理世界和实现持久记忆方面的挑战以及可能的解决方法，并对 AI 的未来做了预测。

他乐观地认为，目前人类距离通用人工智能（AGI）并不遥远，“我不认为我对于离 AGI 还有多远的看法，与你从 Sam Altman 或 Demis Hassabis 那里听到的非常不同。你知道的，很可能在十年内，但不会在明年或近两年发生。”

学术头条在不改变原文大意的情况下，对部分访谈内容做了精编。内容如下：

Nikhil Kamath ：我们很多人都听说过围绕 AI 的猜想，既有积极的一面，也有消极的一面。今天，我们希望可以清楚地理解 AI 对于所有人来说究竟是什么，我们是如何到达这一步的，以及未来会怎样。

我们先从什么是 AI 开始。

Yann LeCun ：好的，这是一个好问题。甚至我们还要问，什么是智能（intelligence）。在 AI 的历史上，我认为什么是 AI 的问题有点像是盲人摸象的故事。智能有非常不同的方面，纵观 AI 的历史，人们对什么是智能提出了一种观点，并基本上忽略了所有其他方面。

20 世纪 50 年代，人们认为智能就是推理，那么我们应该如何进行逻辑推理呢？如何寻找新问题的解决方案呢？

人们当时发现，当我们遇到问题时，可以将其形式化为一个特定的数学问题。例如，一个经典的问题是旅行推销员问题（Traveling Salesman Problem）：给定一堆城市，如何设计出经过每个城市的最短路径？这种问题可以看作一种优化问题。优化的本质是寻找一个问题的解决方案，通过一个数值（比如路径长度）来衡量解决方案的好坏，数值越小，解决方案越好。

Nikhil Kamath ：那么，寻找解决方案与智能有关吗？如果你问我什么是智能并用一句话定义，我会感到目瞪口呆。

Yann LeCun ：是的，正确的。这实际上又回到了大象的例子。

Nikhil Kamath ：能解释一下这个大象的例子吗？

Yann LeCun ：好吧，你肯定知道盲人摸象的故事。第一个盲人走到大象身边说，这摸起来像堵墙。第二个盲人走到大象腿旁边说，这摸起来像棵树。第三个盲人摸到了大象的鼻子，说这是根管子。没有人能完整地了解大象是什么，你会从不同的角度看到它。

因此，智能的一个角度就是寻找解决方案。但你知道，寻找特定问题的解决方案只是“大象”的一小部分，只是智能的一个方面，不是全部。

但从 20 世纪 50 年代至 20 世纪 90 年代，当时占据主导地位的 AI 分支基本上只关注到这一点，认为 AI 就是寻找问题的解决方案，就是去“规划”。例如，将一堆大小不一的物体堆叠起来，需要规划堆叠的顺序；或者控制机器人手臂抓取一个物体时，需要规划避开障碍物的路径。这些都属于“规划”问题的范畴。

然而，这一分支完全忽略了感知问题，例如怎样理解世界、识别物体或将物体从背景中分离出来。这些问题在当时并未被重视。

Nikhil Kamath ：是的。

Yann LeCun ：与此同时，还有另一个 AI 分支也始于 50 年代。这一分支试图重现人类和动物的智能机制。动物和人类的大脑通过连接的神经元网络进行自我组织和学习。智力并非自发生成，而是从大量简单元素的网络中涌现而出。

20 世纪 40 到 50 年代，人们开始认识到，智力和记忆来自神经元之间连接强度的变化。大脑通过调整神经元之间的连接强度来学习。科学家基于此提出了理论模型，并设计了能够模拟这种行为的电子电路，试图以此重现智力的机制。你知道，我们可以建立。

Nikhil Kamath ：所以，你是说，智能主要是解决某个问题的能力？

Yann LeCun ：是的，这是我们刚刚提到的第一个观点，第二个是学习能力。这就是 AI 的两个分支。

Nikhil Kamath ：好的。

Yann LeCun ：所以，关注学习能力的分支在 20 世纪 50 年代末、60 年代初取得了一些成果。但在 60 年代末消亡了，因为事实证明，那些在 60 年代设计的神经网络的能力是极其有限的，不能用于生产真正的智能机器。但它对工程的各个部分都产生了影响，例如产生一个称为模式识别的工程领域。

Nikhil Kamath ：嗯，所以你现在说的智能也是系统学习的能力？

Yann LeCun ：学习，是的，你需要机器学习来感知，解读图像、声音、语音。

Nikhil Kamath ：那么，如果我们需要画一棵 AI 树，AI 是在最上面的，其下是机器学习，机器学习有三种类别，其下是不同的神经网络，再下面是强化工具，比如深度学习，之后是 LLM，这是现在最流行的。

Yann LeCun ：是的，正确的结构是顶部是 AI，之后机器学习是解决 AI 问题的一种特殊方法。深度学习，它确实是当今 AI 的基础，然后，神经网络有很多层，这仍然是我们所做一切的基础。再此之下，有几个架构系列，卷积网络、transformer 及其组合，再然后，在 transformer 下面会放置图像或音频识别、自然语言表示这些功能。

然后还有一个子类别，LLM，它们是自回归 transformer。Transformer 有特殊的架构使它们能预测下一个 token，所以能被用来生成 token。这就是自回归预测。

Nikhil Kamath ：而且它最适合文本，但不适用于图片、视频或任何其他内容？

Yann LeCun ：是的。LLM 适用于文本而不适用于其他事，是因为文本是离散的，因此可能发生的事情是有限的，但如果你想预测视频中会发生什么，可能的帧数之类，本质上是无限的。就比如说，一幅图像，1000*1000 像素，像素又是有颜色的，有三个值，这说明必须要生成 300 万个值。我们不知道怎样用概率分布去表示超过 300 万像素的所有可能图像的集合。

Nikhil Kamath ：但这正是大家所关注的事情。

Yann LeCun ：这是我们很多人认为 AI 的下一个挑战。基本上，你有一个可以通过观看视频了解世界如何运作的系统。

Nikhil Kamath ：如果你要说从视频和图片中学习，这将是下一个阶段，这一阶段会在 LLM 的当前位置吗？

Yann LeCun ：不，它与 LLM 截然不同，我一直直言不讳地说 LLM 不是通往人类级智能的道路。 LLM 适用于离散世界，它们不适用于连续的高维世界，视频就是这种情况。

这就是为什么 LLM 不了解物理世界。尽管 LLM 在语言方面的功能是惊人的，但它们可能会犯非常愚蠢的错误，这表明它们不了解世界是如何运作的，不了解底层世界。所以我一直地说，最聪明的 LLM 都不如你家里的猫聪明，这是事实。

那么，未来几年的挑战，是建立解除 LLM 限制的 AI 系统。建立能够理解物理世界，有持久记忆的系统。

Nikhil Kamath ：持久记忆？

Yann LeCun ：是的，持久记忆意味着它们可以记住任何事情，将事实存储在内存中，然后在需要的时候检索。

Nikhil Kamath ：LLM 现在记不住东西吗？

Yann LeCun ：LLM 有两种类型的内存。第一种类型在参数中，在训练期间调整的系数中，它们在这一过程中会学到一些东西，但这并不是真正存储一条信息。如果你在一堆小说上训练 LLM，它无法反驳小说，但它会记住一些关于那本小说中单词的统计数据，它也许能回答问题，关于故事和类似事情的一般问题，但它无法复述所有单词。

Nikhil Kamath ：这有点像人类，对吧？

Yann LeCun ：你读一本小说，你不可能记住所有单词，除非你花费很多精力，这就是第一种记忆。上下文是第二种记忆。你输入提示（prompt）。

并且由于系统能够生成单词，这些单词或 tokens 被注入到输入中，可以用作某种工作记忆，但这是一种非常有限的记忆形式。你真正需要的是一种更接近于人类大脑海马体功能的记忆。哺乳动物有一种叫海马体的东西，是大脑中心的一个结构。如果你没有海马体，你将无法记住超过 90 秒的事情。

Nikhil Kamath ：所以如果 AI 可以预测未来，这是乌托邦还是反乌托邦？

Yann LeCun ：这将是乌托邦。因为除了我们的大脑之外，还有一种预测未来的方法，通过规划动作序列以满足特定条件来实现目标，这也许需要积累很多的知识才能够做到这一点，也许拥有人类不具备的能力，因为人脑有局限而计算机能够有计算之类的能力。

所以，如果这个计划在未来取得成功，可能五年到十年内，我们可以让 AI 达到人类水平的智能。这可能是乐观的，对吧？

Nikhil Kamath ：像通用人工智能（AGI）和人类级智能，你认为很遥远或者不太可能？

Yann LeCun ：不，我不认为这些是遥远的。我不认为我对于离 AGI 还有多远的看法与你从 Sam Altman 或 Demis Hassabis 那听到的非常不同。很可能在十年内，但这不会在明年或近两年发生。它需要更久的时间。

而且，如果只是扩大 LLM 规模、使用更大的计算机和更多的数据来训练它们，这样的方法是行不通的。我们必须要拥有那些新的架构，那些 JEPAs （世界模型架构），以及能从现实世界中学习、可以分层规划的系统。而不是不加思索一个接一个产生单词。所以，要系统 2，而不是系统 1。LLM 是系统 1，我所描述的架构，我称之为“目标驱动 AI”，是系统 2。

Nikhil Kamath：今天我们试图定义什么是智能。我是这样写的：智能是信息的集合以及吸收新技能的能力。

Yann LeCun：智能是技能的集合，以及快速学习新技能的能力。或者无需学习即可解决问题的能力。这在 AI 领域被称为 zero-shot。将三者结合就是所说的智能。

Nikhil Kamath：非常感谢你，Yann，感谢你所做的一切。

Yann LeCun：谢谢。

访谈链接：

https://www.youtube.com/watch?v=JAgHUDhaTU0&t=316s

整理：阮文韵

如需转载或投稿，请直接在公众号内留言

杨立昆最新访谈：AI 很像一个「盲人摸象」的故事

相关资讯