万字独家视频专访:斯坦福李飞飞教授回顾20年AI征程,并解读未来每份工作都需要AI技能

来源:图灵人工智能

图片来源:pixabay

素材来源:官方媒体/网络新闻

在硅谷的中心地带,山景城的美国计算机历史博物馆(Computer History Museum)最近举办了一场引人注目的论坛。

作为人工智能领域的先驱,李飞飞教授已经在这个快速变化的科技前沿奋战了二十多年。她是斯坦福大学计算机科学系教授,同时担任斯坦福大学以人为中心的AI研究所的共同主任。在过去的岁月里,她曾领导斯坦福AI实验室,并在谷歌担任AI和机器学习的首席科学家。此外,她还是美国国会和白宫委托的国家AI研究资源任务小组的重要成员。这些经历使她成为了连接学术界、产业界和政策制定者的关键桥梁。

在对话中,李飞飞教授回顾了AI发展的关键时刻。她特别强调了2022年10月底ChatGPT的爆发性出现。"对于我们这些研究人员来说,这个趋势其实早已显现,"她说道。早在2021年,她和同事们就已经意识到了基础模型的巨大潜力,并创立了全球首个专注于这一领域的研究中心。ChatGPT与之前的AI突破(如AlphaGo)有着本质的不同。"这是第一次AI如此亲密地走进了普通用户的生活,"她强调道。与只有围棋大师才能体验到的AlphaGo不同,ChatGPT触手可及,任何有互联网连接的人都能使用。这种普及性不仅唤醒了公众对AI的认知,也引起了各国政府的高度关注。

同时李飞飞教授强调了AI教育的重要性。"AI正在成为新的语言,"她呼吁加强跨学科教育,认为不论学生未来选择什么专业,都应该对AI有基本的了解。即使你的兴趣不在编程或AI技术细节上,如果你对艺术、政治学、法律或医学感兴趣,AI也有你的一席之地,"

专访要点

1、AI 的背景:李飞飞教授解释了 AI 的历史,从 1956 年达特茅斯会议开始,AI 专家们致力于通过推理和决策使机器具有类人思维能力。

2、AI 的起伏:AI 历史经历了几次高潮和低谷,包括 1970 年代专家系统的兴起与破灭,以及 1990 年代“安静的革命”——统计建模和机器学习逐渐成为 AI 的核心方法。

3、深度学习的爆发:2012 年,通过 ImageNet 数据集和 AlexNet 的胜利,AI 进入深度学习时代,结合了神经网络、大数据和 GPU 计算,推动了现代 AI 的飞跃。

4、AI 的应用与影响:从 Google 到医疗保健、教育、农业,AI 技术的应用无处不在,推动了各行各业的变革。她的 ImageNet 项目如何影响了全球 AI 研究者的发展。

5、未来 AI 的挑战与机遇:李飞飞教授认为,未来 AI 将继续在技术上取得突破,同时社会将面临如何治理和安全使用这些技术的挑战。她特别指出了空间智能的重要性,认为未来 AI 不仅限于语言智能,还包括更广泛的 3D 空间理解。

文稿整理

主持人 Dan'l Lewin:好好好,欢迎大家!我们马上开始。嗯,把精彩的内容留到后面,它马上就要来了。欢迎大家,特别是那些还不认识我的人,我叫 Dan Lewin,是博物馆的首席执行官,我在这里工作了大约六年半的时间。

今天几乎是座无虚席,而且我们也在进行在线直播,所以也欢迎那些远程观看的观众。如果你们还不清楚的话,我想告诉你们,博物馆大约在六年前对其使命进行了调整。我们仍然像所有收藏机构一样继续收藏和保存历史,并为后世保存这些财富,但我们也非常关注“人”。在早期,“人” 就是计算机,然后我们发明了这些叫做“计算机”的机器,而现在,生活已经离不开它们。

因此,博物馆的使命也随着时代的变化而进化,我们的使命是解码技术的路径,探讨我们如何获得技术主导权,因为我们拥有这个收藏,面对数字世界的当下,这一目标不断变化,并对人类条件有着深远的影响。今晚的节目将从个人的角度深度探讨这个问题,我非常激动地欢迎李飞飞教授来到我们的节目。

李飞飞:谢谢,谢谢计算机历史博物馆,感谢Dan和Tom的邀请。

01

回顾AI的70年历史

汤姆·卡利 :谢谢。好的,大家都得赶快去买这本书,也可以买一些送给你的亲朋好友,它真的很好读。那么,飞飞,我们要看看观众有多“宅”。有多少人可以向别人解释什么是随机梯度下降和反向传播?请举手。哦,好吧,太棒了。你在书里提到了一点关于AI的历史。我想知道你能否从1956年开始,讲讲当时的研究人员在做什么,以及他们当时认为解决人工智能问题需要多长时间?

李飞飞:好的,首先,非常感谢。感谢计算机历史博物馆,感谢丹尼尔和汤姆的邀请。我想先说,对于那些庆祝农历节日的人,祝大家中秋节快乐!今天嗯,好的,现在让我们回到1956年,那不是在达特茅斯的研讨会,对吧?哦,我以为那是1959年。看来我的记忆有点模糊了。我知道观众里肯定有真正的历史学家,所以1956年,那是一个炎热的夏天,在达特茅斯学院,AI的奠基者们齐聚一堂:约翰·麦卡锡(John McCarthy)、马文·明斯基(Marvin Minsky)、克劳德·香农(Claude Shannon),还有第四个人是谁来着?嗯,我想起来了,还有一个人。抱歉,我忘记了名字。他们召集了一群计算机科学家,在我记得的一个来自DARPA的小额资助下,讨论计算的未来。当时,我想是约翰·麦卡锡刚刚创立了这个叫做“人工智能”的新领域。他们在那个夏天的研讨会上试图撰写一篇白皮书,探讨什么是人工智能、它能做什么、我们如何解决这个问题。他们主要专注于推理,特别是演绎推理,试图让机器像人类一样思考,回答问题,做出决策。这一路走来已经有70多年的历史了,我们见证了AI的高潮与低谷。你可能认为我们现在处于一个炒作周期中,其实在70年代,我们经历了关于专家系统的炒作周期。当时专家系统开始真正展示出用一阶逻辑和专家系统在AI中实际应用的潜力,但那个泡沫最终破裂了,因为它没有兑现当时的承诺。我记得有杂志封面在谈论机器人接管社会的事情,那是1970年代的事。然而,事情并没有如预期般发生,资金也开始枯竭,无论是学术界还是工业界的资金都大幅减少。我认为国防领域的资金仍然存在,但一些研究人员实际上避开了这些资金来源。所以,总的来说,这个领域在当时萎缩了。

然后到了1990年代,我会说AI领域开始悄然发生革命。虽然公众仍然把那段时期视为“AI冬天”,但我个人认为那是早春的开始,虽然雪还没有完全融化,但绿色的萌芽已经开始出现。我认为推动这一切的是统计建模,与计算机编程结合,我们开始称之为机器学习。AI和机器学习找到了它的语言,通过统计学和机器学习的语言开始在各个领域取得突破,如自然语言处理、计算机视觉和语音识别。当时,研究开始深入这些领域。对我个人而言,我在2000年进入AI领域,作为加州理工学院的博士生。当时很多公众还认为那是“冬天”,但对我来说,两件事对我们这一代AI研究人员具有决定性意义。首先是统计机器学习,当时我的第一堂研究生课程实际上就是“神经网络和模式识别”。我们阅读了反向传播的论文,也学习了支持向量机、贝叶斯网络、提升方法和核方法等。当时我们使用这些工具开始研究AI问题,比如计算机视觉。

其次,我认为发生在实验室之外、学术界之外的一件事对AI具有决定性作用,那就是互联网的崛起。我认为Google是在1999年或2000年成立的,互联网开始为我们提供数据。最后,还有大约十年后GPU的到来。所以事情开始悄然融合,我认为大约在2010年至2012年,AI的公众时刻真正到来了。至少在硅谷,这个公众时刻开始发生。Google和其他公司开始尝试收购一所名不见经传的初创公司,这家公司来自多伦多大学,赢得了ImageNet挑战赛。从那时起,我们进入了现代AI的时代,即AI的复兴时代。

汤姆·卡利:你参与的一个项目在改变人们对AI可能性的看法方面起到了非常重要的作用,那就是ImageNet。你和同事们一起创建了一个包含1500万张图片的数据集,并对其进行了标注。为什么这个项目在推动现代AI浪潮方面如此重要?

李飞飞:对于那些不了解的人来说,ImageNet是一个数据集项目,始于2006年,花了几年的时间,在2009年发表。最终,在2009年,它成为了AI领域最大的一个数据集。它包含了1500万张互联网图片,这些图片由人类分类、整理、组织和编目,涵盖了22,000个自然物体类别。在我们发布ImageNet作为开源数据集后,立即与研究社区合作,发起了年度的ImageNet挑战赛,邀请来自全球的机器学习和计算机视觉研究人员参与这一年度的目标识别挑战。

这个年度挑战赛始于2010年,最终在2012年达到了一个关键时刻。那一年比赛的第一名得主,就是现在大家都熟知的“AlexNet”,这是由多伦多大学的研究人员完成的工作,包括Geoffery Hinton、Ilya Sutskever、Alex Krizhevsky等人。那个时刻对于AI领域具有非常象征性的意义,因为现代AI的三个基本要素首次汇聚在一起。首先是神经网络,这就是为什么汤姆刚才在问大家反向传播的问题,因为这是神经网络的数学基础。第一个要素是神经网络,第二个要素是大数据,使用ImageNet数据集,第三个要素是GPU计算。当时他们用了两块GPU进行训练。ImageNet的重要性在今天看来似乎有些微不足道,大家都知道AI依赖数据,但在ImageNet之前,人们并不相信数据。当时AI的研究主要集中在完全不同的范式上,使用的数据量也非常少,有时甚至根本没有数据,而是使用手工设计的特征工程。我们提出了一个非常激进的想法,就是抛弃所有这些过去的方法,转而采用数据驱动的方法,用大容量的模型来处理数据,以推动AI的泛化能力。这种想法在当时受到了许多人的怀疑。

汤姆·卡利:所以当时并没有这种观点,即神经网络可以看作是通用函数逼近器,如果给它们足够的样本,它们就能够学习一种将输入映射到输出的函数。这种观点并不是主流,对吧?

李飞飞:没错,这种观点当时并不流行。

汤姆·卡利:我在你的书里读到,很多年长的同事对你当时做的事情感到疑惑。那么,我觉得这是一个很好的例子,说明如果你相信某件事,有时你应该坚持下去,尽管你可能并没有得到来自同事们的支持和认可。

李飞飞:是的,但我并没有从负面的角度去写这段经历。我认为这是科学进步的一部分,不管是来自年长的同事、年轻的同事,还是学生的挑战,我每天都会被我的学生挑战,而我可能每天都会有99个愚蠢的想法,但偶尔也会有一个好主意。所以当时被质疑是很正常的,因为这是一个未经验证的想法。但我想对年轻人来说,故事的另一面是,受到挑战并不意味着你应该放弃,这是这里的重要教训。

02

AI领域最新发展

汤姆·卡利:是的,那么,从2012年到2024年,AI领域有哪些你认为最重要的进展呢?

李飞飞:不管你信不信,2012年不仅是AlexNet的关键时刻,同年,美国国家科学院院士珍妮弗·道德纳(Jennifer Doudna)和她的同事们还发现了CRISPR技术。我记得2012年我们有过一次谈话,结果发现当时两大科学技术突破几乎同时发生了。自2012年以来,已经过去12年了,发生了很多事情。在研究领域,AlexNet和ImageNet是一个重要的时刻,它打开了大公司的大门,尤其是Google等科技巨头开始加倍投资深度学习。这是深度学习时代的开端。然后,我认为另一个公众时刻出现在2016年1月,当时AlphaGo击败了围棋大师李世石,并赢得了比赛。这是公众第一次意识到,机器已经强大到可以在那些人类认为独特的任务上挑战人类了。这也引入了一类新的算法,叫做强化学习,这是在深度学习基础上的进一步发展。

在2016年至2022年之间,AI领域的投资逐渐增加,特别是在大科技公司和创业领域。同时,我们也开始看到“技术反感”的苗头,尤其是在2016年剑桥分析公司丑闻以及大选之后。大约在那个时候,机器学习的偏见问题开始被提出,自驾车事故也发生了,最早大约是在2017年。于是,我们开始进行关于技术的社会对话,既有对技术的期待,也有对技术的担忧。所有这些最终在2022年10月底的ChatGPT事件中达到了顶峰。对于我们这些研究人员来说,我们其实早就看到这个趋势正在发生。你可能觉得我是在吹嘘,但我告诉你为什么。作为斯坦福以人为中心的AI研究所的联合主任,早在2021年,我们就创办了全球首个关于基础模型研究的中心,因为我们看到了GPT-2的结果。当时公众还不了解,但像我们这样的研究人员已经意识到,我的同事Percy Liang和Chris Ré当时就说:“天啊,这将会改变一切。”所以我们立即投入资源成立了这个中心。因此,当ChatGPT事件发生时,我们感到庆幸我们提前做了准备,但同时也对它在媒体上的迅速崛起感到震惊。

我认为AlphaGo时刻与ChatGPT时刻在公众意识上的区别,不仅仅是接触AI的人数不同,更重要的是,这是第一次AI如此亲密地走进了普通用户的生活。AlphaGo只有围棋大师能够使用,而ChatGPT则在每个人的指尖上。这对每一个个人来说都是一次觉醒的时刻,同时对各国政府也是一次觉醒。在ChatGPT之前,我们研究所的使命之一是弥合科技界与政策界的差距。你在华盛顿工作,我本来不会经常飞往华盛顿,但我当时一直在飞往华盛顿进行对话。而在ChatGPT之后,情况完全反转,华盛顿开始频繁联系我们,想知道发生了什么。我认为这十年来,公众看到的可能是一个个独立的事件,但从我们的角度来看,这是一条不断上升的曲线,科技投资和进展越来越多。

汤姆·卡利:那么,在研究界,关于这些大型语言模型到底是“随机鹦鹉”还是具备实际推理能力的争论还在继续吗?你对此怎么看?

李飞飞:我理解你用“随机鹦鹉”这个词的原因,这个词来源于一篇批评大型语言模型的论文。我认为我们确实需要从不同角度去批评这些模型,无论是它们的能力、能耗、局限性,还是偏见等问题。但从科学的角度来看,我会用更中立的语气,而不是称它们为“神”或“鹦鹉”。实际上,它是一个具备很强能力的大模型,不仅能进行模式匹配和学习,还能进行预测,甚至在推理上也有一定的表现。它能够向你解释事物的原理。最近几天刚刚发布的版本似乎在推理能力上更进一步,尤其是在推理时间方面。所以,我认为说它具备某种推理能力是合理的,虽然它的模式识别能力可能被某些人称为“鹦鹉”效应,但它的确展示了某种程度的推理能力。不过,作为一名教育者,我始终非常谨慎,特别是在与公众沟通时,我的责任是诚实的传达信息。我非常小心不要过度夸大这些模型的推理能力,也不会做一些关于“感知”或“意识”的夸张推断。

汤姆·卡利:那么,你认为未来3到5年内会发生什么?这些系统目前有哪些最大的局限性?我们在哪些领域可以取得真正的进展,以改善它们的表现?

李飞飞:汤姆,我不确定你是在问关于语言模型的问题,还是AI整体的问题。

汤姆·卡利:嗯,比如说,有些人认为我们可以通过购买更多的GPU来取得巨大进展,比如购买200万个GPU而不是两个GPU,或者使用更多数据,甚至合成数据。有人说,“Transformers和注意力机制是你所需要的一切”。他们认为只要扩展现有技术,就能取得很大进展。而另一些人则认为,现有的AI技术存在根本性的局限性,我们必须探索新的方法,比如神经符号学等。那么,你对这个争论有什么看法吗?

李飞飞:首先,这些都是很好的观点。实际上,我认为我们正处于真正的AI数字革命中,所以接下来的3到5年将继续在技术上非常激动人心,但同时也会给我们的社会,尤其是政策领域,带来紧张局面。

你提到的这些问题更多的是技术层面的。首先,我深信人类历史上的每一个时刻,科技和科学都有其局限性,但我们总是能够推动前沿不断向前发展。就我个人而言,我对空间智能特别感兴趣,这远远超出了语言的范畴。如果你看人类和动物的智能,语言只是其中的一部分。即使我们在谈论高级智能,人类之所以能够建立文明,依赖的远远不止语言。比如从金字塔的建造,到第一次工业革命中的机器设计,再到DNA结构的发现,甚至电影摄影的发明,这些成就大多依赖于超越语言的空间智能。所以,语言之外的领域肯定会为我们打开新的大门。从技术上讲,我们仍然可以看到数据扩展法则的健康证据,特别是在数据规模上。但我们也开始越来越多地听到,关于数据是否已经接近极限的讨论,特别是互联网上的文本数据。很可能我们确实已经接近了这个极限。但从我所在的高等教育领域来看,我也看到很多科学发现的数据还没有得到充分的收集和利用,从这些数据的数字化到建模,还有很多未被开发的潜力。

我认为未来3到5年内,我们将看到各个领域的科学发现因AI和机器学习而蓬勃发展,这不仅仅是大型基础模型的商业化。我们将看到更多关于空间智能的发展,我个人也参与其中,并对此感到非常兴奋。接下来的3到5年不仅是技术的年代,也是我们如何部署这些模型、如何管理它们的年代。现在在我们所在的加州,已经开始讨论与AI相关的法案了。我个人支持安全措施和政策措施,但也担心即使是出于良好意图的法案,也可能对科学界和开源社区产生意想不到的负面影响。这些问题肯定会在未来的3到5年内逐渐显现出来。

汤姆·卡利:我想我们稍后会回到政策问题上,但现在能否请你向观众解释一下你所说的“空间智能”是什么?计算机具备看、做和学习的能力意味着什么?我们如何判断在空间智能方面取得了进展?你在斯坦福的同事Chelsea Finn说过,我们距离让机器人去一个从未见过的房子里做早餐的能力还很遥远。你怎么看?

李飞飞:是的,确实很遥远,我也很期待那一天,但它确实还很远。这个观众太黑了,汤姆和我看不到大家的反应,所以我就不问问题了。不过,如果你追溯人类语言的发展,当然这仍然是一个科学研究领域,但大致来说,最早的原始语言时刻可以追溯到大约一到两百万年前,那是人类早期祖先的时期。

很多人说我们今天使用的语言大约是在过去30万年内发展起来的。但如果你追溯人类“看”空间的能力,理解三维世界、看到障碍物、食物、如何导航的能力,这可以追溯到大约5.4亿年前。那时水下的动物第一次发展出了光感器官,有了这种感知能力,感知就开始了。当感知开始后,动物们开始有目的地移动。在此之前,它们只是在漂浮,可能会偶尔碰到一些东西,因为早期已经有了触觉感知,但那时的移动还非常随意。一旦能够“看”见,进化中的智能就开始发展了。所以,空间智能总结了这种能力。用今天的语言来说,就是理解、推理、生成和与三维世界互动的能力。现在我们同时生活在物理世界和数字世界中,因此这种空间智能适用于这两个领域。这也与如果你想让一个机器人来你家做早餐密切相关。机器人必须具备空间智能,知道冰箱在哪里,炉子在哪里,鸡蛋在哪里,如何打破鸡蛋并将其放入锅中,所有这些都属于空间智能的范畴。

03

三年内实现AGI?

汤姆·卡利:明白了,为什么这听起来这么有趣(笑)?很多讨论都围绕着人工通用智能(AGI)这个概念。我想问你,你认为这是一个有用的概念吗?人们通常指的是一种可以完成所有经济上有用的任务的AI,不仅限于机器人。你认为这是一个有用的概念吗?还有,有些人说这会在三年内实现,你认为这是否过于乐观?

李飞飞:这是个好问题,我必须承认,这真是一个“硅谷式”的问题(笑)。有时我在脑海中与AI的先驱们进行对话,像约翰·麦卡锡(John McCarthy)、马文·明斯基(Marvin Minsky)、艾伦·图灵(Alan Turing)等人。他们可能不会称自己为AI的开创者,因为当图灵向人类提出“思维机器”的问题,并最终转化为图灵测试时,AI这个词还没有被发明出来。如果我和这些巨人们对话,我认为他们对AI的定义可能非常相似——那就是智能的通用能力。所以,如果他们把AI看作是这种通用智能能力,那么从学术角度来看,我很难将AI和AGI区分开来,因为它们深深交织在一起。AGI这个词大约十年前才开始流行,更多是来自行业的营销界。当然,这并没有什么不好,但从学术、科学和技术研究者的角度来看,作为一个教育者,我认为我们应该始终追求那些最困难的问题,即使我们一生都未必能够解决它们。

我认为AI这个领域的北极星目标始终是追求通用智能能力。那么,我怎么看待“人工通用智能”(AGI)这个词?没人问过我这个词是怎么来的(笑),不过没关系。其实AI领域的很多定义,尤其是我们热爱的、仍然相信的定义,和AGI的定义在很大程度上是重叠的。至于三年内能否实现AGI,如果面对风险投资人,我会说“当然可以”(笑)。但面对你,我觉得我们需要负责任地看待这个问题。机器是否会在一些重要任务上超越人类?我们已经在某些领域做到了,比如2006年DARPA的无人驾驶汽车挑战赛,我的同事Sebastian Thrun带领团队在内华达沙漠中驾驶了138英里的无人驾驶汽车,这就是一个了不起的能力展示。我们还有机器翻译,能够翻译几十种语言,这是非常出色的能力。还有AlphaFold、AlphaGo,甚至ImageNet,它能识别上千种复杂的物体类别,比如星鼻鼹、各种犬种等等,这些都是超越人类的能力。

所以我们已经在某些方面取得了超人类的成就,并且未来会继续取得一些进展。但如果要定义全面的、像人类一样复杂的智能能力,我认为三年内不太可能实现。

汤姆·卡利:那么,能不能谈谈你在斯坦福正在做的事情?你们的“以人为中心的AI(Stanford Human-Centered AI Institute)”倡议到底意味着什么?

李飞飞:这是个很好的问题。我认为“以人为中心的AI”对我来说是一个思考AI工作框架的方式。AI是由人创造的,被人使用,并且影响着人们的生活。什么样的框架可以指导我们思考这项技术?2018年3月,我还在Google担任首席科学家时,在《纽约时报》上发表了一篇文章,首次提出了“以人为中心的AI”这个框架。这一灵感来源于我在Google的工作。我有机会与许多企业合作,从日本的黄瓜农场使用AI到《财富》500强公司希望通过AI彻底改革他们的商业模式。当时我意识到这项技术比我想象的还要庞大,它将以深刻的方式影响我们的生活、商业和整个世界。这种意识让我感到害怕,意识到一项工具可以如此强大,必须认真考虑它的影响。对我来说,这种深远的影响必须扎根于“人类影响”的思考之中。在斯坦福的HAI(以人为中心的AI研究所),我们从三个层次来思考AI对人类的影响:个体、社区和社会。

举个例子,个体层次是关于每一个个体的影响。这项技术如何影响或惠及你?如果你是艺术家,这项技术是增强你的能力,还是在侵害你的知识产权?如果你是病人,这项技术是否能让你更好地康复而不会剥夺你的人类尊严?如果你是学生,这项技术是否能帮助你更好地学习?社区层次是关于AI如何作为工具帮助资源匮乏的社区。例如,AI加上远程医疗是一个非常好的应用,可以为那些缺乏医院和医生的社区提供帮助。但同时,AI的偏见是否会对某个社区产生不公平的影响?我们已经看到了这种现象的出现。

最后是社会层次。今天,我们无法停止讨论AI对社会的影响,比如在民主进程中,AI、深度伪造和信息战如何改变这一切。我们也在讨论AI对就业的影响,从软件工程师到卡车司机、放射科医生,AI正在影响整个社会。这些问题都是人类问题。数学是干净的,但人类世界是复杂和混乱的,而AI已经从那个只存在于干净数学和编程的世界走向了复杂的人类世界。

04

AI好处和应用

汤姆·卡利:有人曾说过,技术很简单,但人类很难,尤其是那些年幼的人(笑)。那么,AI在健康领域的潜在好处和应用是什么?你对哪些应用感到最兴奋?

李飞飞:谢谢你的问题,这让我想起了我书中的第十章(笑)。健康领域的应用几乎是无限的。我个人非常受启发,因为我花了无数时间坐在初级护理、急诊室、手术室外,以及门诊护理环境中。因为我有一位长期患病的亲人,我照顾我妈妈很多年了。通过这些经历,我意识到我们的医疗系统充满了“人照顾人”的情景,而AI可以为这个领域带来巨大的变革。

但所有这些医护人员——从护士到医生,再到看护者——他们没有足够的时间,也没有足够的帮助。所以,我们在医疗环境中提出了“环境智能”这一概念,这是我与斯坦福医学院的合作伙伴们共同提出的,目的是利用技术为医生、护士和看护者提供一双额外的“眼睛”和“耳朵”,确保患者的安全,或及时发现他们的病情是否迅速恶化。例如,我不想让大家举手回答,因为那会让我难过,但我知道很多人都有亲人或朋友摔倒过。摔倒是一个非常痛苦且代价高昂的伤害,尤其是对老年人而言。我们如何预测这些情况?如何发出警报?如何帮助他们?如何帮助我们的长辈或患者?很难让人类24小时看护,但计算机和摄像头可以帮助我们。

环境智能可以监控慢性阻塞性肺疾病(COPD)患者的病情变化,及时提醒医生患者的氧气水平是否迅速变化或其他状况是否恶化。这只是AI作为“守护天使”的一个例子,帮助看护者更好地照顾病人。在教育领域,个性化学习是一个显而易见的AI应用,它可以作为导师或助教,在不同的学习环境中帮助教师。我想你的一位前研究生Andrej Karpathy也在做这方面的工作。我几天前还见到了他。农业也是一个应用领域,尽管令人难以置信。几年前,在深度学习革命开始之前,我的一位学生共同创办了一家创业公司,使用计算机视觉技术检测田地里的杂草,以保持作物的健康。我还听说有养鲑鱼的农民使用AI来帮助养殖。AI的正面应用案例数不胜数。

汤姆·卡利:那么,我们如何培养更多既具备计算机背景又是某个领域专家的人才呢?比如,你的同事达Daphne Koller既有机器学习背景,又在医疗和药物研发方面有很多学习和研究。似乎那些在计算机和领域专业知识上都有所涉猎的人,会更有机会发现这些有吸引力的应用场景。

李飞飞:这是个非常好的问题,我非常相信跨学科和多学科的合作。即使你不想在AI与计算神经科学、AI与计算生物学,或AI与政治学的交叉点上读到博士学位,作为学生,在学习的过程中同时拥抱计算机领域和你的兴趣领域(无论是生物学、艺术、政策、化学等)仍然是非常有价值的。所以对学生来说,如果你还在学校或考虑上大学,我认为汤姆的建议非常宝贵,那就是要拥抱跨学科的学习。从更广的角度来看,AI是新的计算语言。我曾说过,任何地方有芯片的地方就有AI,或者将来会有AI。从小到一个带芯片的灯泡,大到机器人和汽车,都将包含AI技术。

因此,考虑到这项技术的重要性,我确实相信我们需要教育我们的孩子和学生,不管他们的背景如何,至少要了解这项技术。即便不学习编程,至少要知道AI是什么。但最后我要说的是,即使你的兴趣不在计算机、编程或AI技术细节上,如果你对艺术、政治学、法律或医学感兴趣,AI也有你的一席之地。因为领域专家将使用AI来改变你所在的领域,不要害怕从你的视角拥抱它,并用它来创造积极的影响。

汤姆·卡利:有很多人列出了AI潜在的风险,比如你已经提到的一些问题:人们会失去工作、使用深度伪造来干扰选举、AI会加剧已有的偏见。还有一些更具投机性的担忧,比如“工具收敛”理论:如果我们给AI一个目标,它可能会为了实现这个目标而生成子目标,比如复制自己并获取更多的计算资源。你认为这些风险中哪一个最值得认真对待?

李飞飞:的确,每一项强大的技术都会造成伤害,或者被用于伤害他人,即使本意是好的,也可能带来意外的后果,我们必须面对这一点。但如果你让我选一个风险,作为一名教育者,我会说,拥抱AI新时代的最大风险是无知。这里的“无知”不仅仅指不知道如何拼写“AI”这个词,而是指即使是一些非常有知识的人,在忽视细节和复杂性的情况下,以夸张的方式传达AI,这也是一种风险。

如果我们对这项技术过于无知,就会错失利用它为我们带来好处的机会;如果我们对它无知,就无法识别出实际的风险;如果我们散布无知的信息,就会误导公众或政策制定者。因此,很多问题的根源实际上都源于对AI的缺乏了解,导致我们没有正确评估风险,或者以夸张的方式传达风险,或者完全忽视了问题。

05

AI治理问题

汤姆·卡利:现在你看到的一些例子中,有哪些是你认为人们完全误解了AI?

李飞飞:我认为任何人如果说“AI是完全好的”,或者“技术是完全好的”,那显然是一种对历史的无知。我们回顾人类历史,任何工具都会被用于有害的目的。所以我们必须承认,如果你的数据集有偏见,那么在公平性方面就会产生非常不好的影响。如果你不了解AI的制作过程,你可能在不知情的情况下与深度伪造共事。

所有这些都是不好的现象,但还有另一个极端的观点,认为AI是如此的恶魔般,导致存在的危机论,它会自行复制、关闭电网等。我认为这种观点也是夸张的,它忽略了AI并不是一个抽象的概念,它实际上存在于物理系统中。即使是虚拟的软件或数字程序,它仍然依赖于物理系统,存在于数据中心、在电网中、在人类社会中。因此,很多东西是被绑定的、有上下文的。那些夸张的假设并没有考虑到这些现实。

汤姆·卡利:不过,提出这些更具投机性的担忧的人,比如Geoffrey Hinton,他显然非常了解这项技术。你认为为什么这些深度参与技术开发的人,近年来变得更加担忧了呢?

李飞飞:首先,我非常尊敬Geoffrey 。我自研究生时期就认识他了。实际上,去年我在多伦多与Geoffrey 进行了公开讨论,讨论的正是这个问题,这段对话现在还在YouTube上。这是Geoffrey 与我,或者说Geoffrey 里与其他人,极少数公开讨论这一话题的例子之一。如果你仔细听他的发言,他确实在表达担忧,并指出了潜在的风险。但我们也需要认识到,他的担忧在某种程度上被放大了。我完全尊重与Geoffrey 的讨论,我同意他的观点:不负责任地使用这项技术将导致非常严重的后果。他有他认为的不负责任的使用方式,我也有我自己的看法。我尊重每个人以自己的方式提出风险,但作为一名负责的传播者和教育者,我希望向公众传达这样一个信息:掌控和管理这项技术仍然是我们人类的集体和个体责任。而且不仅时间充裕,我们还有足够的控制权,不应该轻易放弃这种责任。

汤姆·卡利:你提到了治理,你在将“国家研究云”这一概念推上政治议程中发挥了重要作用。如果你有机会向下一任总统简报,他们问你该如何处理AI,你会给出什么建议?如何既促进AI的益处,又理解并管理其风险?

李飞飞:我可能会重复我去年6月对拜登总统说的话,今年早些时候在国情咨文演讲时我也见到了他。我认为我们的国家需要一个非常健康的AI生态系统。当我说“生态系统”时,我指的是包括公共部门、学术界、创业公司(现在我们称之为“小科技公司”),以及“大科技公司”的技术体系。我们是一个强大的民主国家,我相信拥有一个健康的AI生态系统可以发挥我们的优势,并对世界产生积极的影响。

汤姆·卡利:那我们可以做些什么来促进这一点呢?

李飞飞:公共投资非常重要。现在我部分参与了私营部门的工作,这让我更加确信私营部门与公共部门在AI投资上的差距太大了。比如我在斯坦福的计算机视觉实验室,我们与几位教授共享,实验室里没有一台H100 GPU,也没有A100 GPU。我们仍在使用A6000和其他更老的芯片。而大科技公司却拥有成千上万甚至数百万台GPU。我认为,公共部门投资是孕育创新的温床,今天我们所取得的许多成就都源于公共部门。如果没有公共部门的支持,我们今天可能不会站在这里,我也不会站在这里。比如,杰弗里·辛顿几十年前开始研究人工神经网络时,也得到了公共部门的支持。ImageNet项目也是从公共部门资金中发展出来的。接下来的三到五年中,很多科学发现会来自公共部门。而且,公共部门带来的最宝贵的资源是什么呢?就是人才。所以我们需要投资公共部门。

06

观众提问

问题1:一个问题是关于你的新公司:你们将如何收集足够的数据来构建一个世界的空间地图,以支持实时定位?显然,数据是必不可少的,在没有数据的情况下无法在空间智能方面取得进展。你对此怎么看?

李飞飞:我们目前还没有公开讨论细节,因为我们还没有准备好。当我们准备好了,会公开讨论。我有点好奇这位观众已经知道我们正在做什么,这是他们版本的故事,我暂时不作评论。不过你说得对,AI是由数据驱动的,空间智能绝对是基于像素的,所以大量的像素数据将推动这项技术的发展。

问题2:艾米提到你曾参与的一个项目“AI for All”,她说:“我是一名12岁的初中生,我们可以做些什么来鼓励更多女孩学习AI,并为AI时代做好准备?”

李飞飞:这是个好问题,我认为每个12岁的孩子都应该被鼓励去拥抱AI,无论你是女孩还是男孩,无论你是生活在农村还是硅谷。如果你喜欢它,那就去拥抱它。对于艾米来说,我想说的是,当我12岁的时候,AI这个东西还不存在,至少我不知道有AI。我当时喜欢数学和物理,今天我非常感激我的父母和老师对我的支持。所以我要对艾米和所有的学生们说的是,追随你的激情,追随你的好奇心,并且保持韧性。如果有负面的声音,忽略它。有很多人会支持你,从你的父母、老师、朋友到你的榜样,所以继续前进,别放弃。

问题3:空间智能除了做早餐,还能解决哪些重要的现实问题呢?

李飞飞:空间智能实际上可以推动很多事情,从创作到设计。多少人希望有一个应用程序,能够想象家具的重新排列?从机器人、增强现实/虚拟现实(AR/VR)到教育、学习、医疗保健、工厂制造等,空间智能可以在这些领域发挥重要作用。这是一项深度普遍的横向技术,可以影响所有这些领域。

问题4:关于小型模型和AR眼镜的结合,这是不是你考虑过的领域?

李飞飞:我对新型媒体非常感兴趣,虽然还处于早期阶段。我们在硅谷,很多人熬夜抢购苹果的Vision Pro。我非常兴奋的是,苹果称之为“空间计算”,因为当时我已经思考了很多年“空间智能”。空间计算需要空间智能,所以当时我心想“没错”。至于眼镜的形式,或者说是头戴设备,眼镜对我来说非常有吸引力。边缘计算或小型模型也非常令人兴奋,小型模型不仅对眼镜和头戴设备有用,对边缘计算、智能设备和机器人也非常有用,尤其是家用机器人。你不能让机器人背着一个服务器对吧?所以小型模型有很多用途。

汤姆·卡利:我对多模态模型和智能眼镜在劳动力培训中的角色也非常感兴趣。我们没有足够的电工,而通过耳机AI和智能眼镜,作为学徒计划的一部分,提供实时的、足够的培训,可以解决这一问题。

问题5:我们如何解决其他语言(除了英语)在AI中代表性不足的问题?研究社区和公司可以做些什么?

李飞飞:这是个好问题,这涉及到数据偏见等问题。首先,我认为每个国家都应该进行公共部门对AI的投资,而这些投资应该与本地文化和语言相关。因此,个体研究人员需要关注这个问题,同时政府和大公司也应该关注这个问题,它们有能力部署大量资源来解决这一问题。英语的主导地位是事实,我们需要意识到这一点。这也回到了我提到的公共部门投资的问题。即使在美国,我们也有很多杰出的研究人员和学生在思考其他语言的问题,但他们目前缺乏数据集和计算资源,所以我们需要解决这个问题。

问题6:哲学性的问题,我想知道你是否可以谈谈你在斯坦福与人文学科和社会科学领域的合作,并举一些例子,说明这些领域的学者给你带来了哪些有趣的见解?

李飞飞:实际上,这是我过去五年里创立并共同管理这个研究所最有趣的部分之一。斯坦福有八所学院,包括法学院、商学院、医学院、新成立的可持续发展学院、人文学科和自然科学学院、工程学院等。与我的同事们交流,与学生、研究人员和学者跨学科地合作,真的非常有趣,也非常启发人心。比如说,和人文学科的同事交流让我更加理解人类的表达和创造力。这让我开始思考AI与那些具有深厚创作背景的人之间的关系,特别是在ChatGPT和其他类似工具问世后,从好莱坞编剧罢工到关于艺术家版权的担忧,再到一些艺术家积极拥抱这项工具,这一切都非常复杂。我自己没有接受过正式的教育来处理这些问题,但通过和这些人文领域的同事交流,他们教会了我如何思考这些问题。

对于这个技术性很强的观众,我想说,技术人员真的需要倾听并与人文学者和社会科学家交流。无论是在你的工作环境中,还是在法律、产品、市场营销等不同的职能领域,你都可以受益于这种跨领域的合作。技术并不是孤立存在的,它需要复杂的人类努力才能使其变得有益、善良。所以,带着谦逊和尊重,给予对方应有的尊严,这是我们建立沟通桥梁的最根本的事情。

问题7:你觉得在可解释性和可解释AI领域取得进展有多重要?

李飞飞:这是个好问题。总体而言,这是重要的,但我认为我们需要更细致地看待它。比如说,即使是可解释性也有不同的层次。大家都知道泰诺(Tylenol)对发烧和头痛有效,但你能解释它的分子作用路径吗?实际上,科学家到今天还没有完全搞清楚细节。但你不会说泰诺是无法解释的药物,因为围绕药物开发有一整套体系,包括监管措施和审批流程,这些让公众对其有足够的解释,从而产生信任感。这是一种可解释性的方式。另一种可解释性,比如你从Lafayette开车到这里时,使用了谷歌地图。它会给你几个选项,比如某条路线收费但能节省4分钟,另一条路线可能更拥堵。虽然谷歌地图不会向你解释从A点到B点的具体算法,但你作为用户会觉得有足够的解释来做出选择。

在医学中,我们大多数人都不是医生,无法理解治疗的详细过程,但医生会用某种人类语言向你解释治疗方案。我花时间举这些例子是为了说明,可解释性的重要性取决于使用场景,同时也取决于可解释性的定义。有时候我们不需要分子路径级别的解释,而是需要一种不同层次的解释。因此,回答你的问题:可解释性很重要,但它取决于使用场景,不同的场景需要不同的解释方式。

问题8:AI可以从神经科学中学到什么?卷积神经网络至少在某种程度上是受人类视觉系统的启发;人们还研究了多巴胺奖励机制,它为强化学习提供了灵感。你认为还有哪些领域可以让神经科学和AI进行合作?

李飞飞:当然。大自然已经找到了低功耗计算的秘诀,因为我们的大脑只消耗20瓦电力,甚至比房间里的灯泡还要少。当我们在斯坦福成立HAI时,神经科学就是三大研究支柱之一。我认为神经科学和AI之间的跨学科合作对推动这两个领域的进步至关重要。例如,儿童的早期发展,尤其是小孩的好奇心驱动的学习模式如何能被应用到AI系统中?这是一种启发。

我们还知道,反向传播是对大脑中两个神经元之间复杂交流的非常简化的翻译。除了突触连接,大脑中的树突连接实际上包含着非常复杂的电化学过程。今天的机器学习算法还没有将这些复杂的神经传递机制纳入其中。反过来,神经科学家们无论是在使用动物模型还是细胞模型,正在收集大量数据,而AI和机器学习正成为他们发现新科学的有力工具。最后,我的实验室还在与心理学家合作,使用非侵入性的脑电波(EEG)来驱动机器人,这完全是非侵入性的。因此,这两个领域之间的交叉合作是非常多的,对我来说,这是最令人兴奋的跨学科研究领域之一。

汤姆·卡利:如果我们不限制时间,观众有足够的问题可以让我们聊的很晚。不过,请大家与我一起感谢李飞飞教授的精彩采访。谢谢!

视频链接:https://www.youtube.com/watch?v=JgQ1FJ_wow8&t=611s

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。