又是AI?刚刚,2024年诺贝尔化学奖被他们获得

本站科技10月9日消息,刚刚,2024年诺贝尔化学奖揭晓,一半奖项授予了大卫·贝克(David Baker),表彰其在计算蛋白质设计领域的贡献;另一半则共同授予德米斯·哈萨比斯(Demis Hassabis)和约翰·M·詹珀(John M. Jumper),以表彰他们利用人工智能在蛋白质结构预测方面的卓越成就。

哈萨比斯和詹珀的工作展示了AI在生命科学领域的巨大潜力。AI不仅加快了复杂生物过程的理解速度,还为药物研发提供了新工具。通过精准预测蛋白质结构,AI让科学家可以更加高效地设计新药物,改善人类健康。

另一位获奖者大卫·贝克,则专注于从头设计蛋白质。作为蛋白质设计领域的先驱,他不仅开发了可以预测蛋白质结构的算法,还通过计算设计出自然界中不存在的新型蛋白质。不仅推动了基础生物学的发展,还为生物制药领域带来了前所未有的创新可能性。

该奖项的颁发凸显了AI在推动生命科学前沿突破中的重要作用,特别是在复杂蛋白质结构预测和设计方面。

蛋白质是生命的核心构件,其三维结构决定了功能。然而,传统上研究和预测蛋白质的结构需要依赖于实验方法,如X射线晶体学和冷冻电镜。这些方法不仅费时、昂贵,还不适用于某些无法结晶的蛋白质类型。

德米斯·哈萨比斯和约翰·詹珀领导的DeepMind团队在2020年推出了AlphaFold2系统,该系统借助AI,从蛋白质的氨基酸序列出发,直接预测出蛋白质的三维结构,且精度达到了接近实验的水平。

这一突破解决了困扰科学界数十年的“蛋白质折叠问题”,极大加速了生物学和医药领域的研究进展。到目前为止,AlphaFold2已经成功预测了超过两亿种蛋白质的结构,助力研究人员在疟疾疫苗、癌症治疗、酶设计等领域取得了重要进展。

今年,DeepMind和Isomorphic Labs发布了新一代AlphaFold3,其在精确预测所有生命分子(包括蛋白质、DNA、RNA、配体等)的结构及其相互作用方面取得了更大突破。

这场结合了AI与生物科学的革命,才刚刚开始。(袁宁)

以下内容来自诺贝尔奖官方介绍:(致敬AI学者,本介绍由AI翻译,本站进行校对)

2024年诺贝尔化学奖——科普背景

他们通过计算和人工智能揭示了蛋白质的秘密

化学家们长期以来梦想着能够全面理解并掌握生命的化学工具——蛋白质。如今,这个梦想已经触手可及。德米斯·哈萨比斯(Demis Hassabis)和约翰·杰姆珀(John Jumper)成功利用人工智能预测了几乎所有已知蛋白质的结构。大卫·贝克(David Baker)则掌握了如何创造全新的蛋白质。其发现的潜力巨大。

生命的多彩化学是如何实现的呢?答案是蛋白质,它们可以被描述为巧妙的化学工具。蛋白质通常由20种氨基酸组成,氨基酸可以通过无数种方式组合。在DNA中储存的信息作为蓝图,氨基酸在细胞内连接,形成长链。

接着,蛋白质的神奇之处出现了:氨基酸链扭曲并折叠成独特的三维结构。这一结构赋予了蛋白质功能。有的成为化学构件,形成肌肉、角或羽毛;有的则成为激素或抗体;许多蛋白质形成酶,推动生命的化学反应。位于细胞表面的蛋白质也非常重要,它们作为细胞与周围环境之间的沟通渠道发挥作用。

几乎无法高估这些生命的化学构件——20种氨基酸的潜力。2024年诺贝尔化学奖探讨的是如何在全新的水平上理解并掌握它们。哈萨比斯和杰姆珀通过人工智能解决了化学家们50多年未解的难题:如何根据氨基酸序列预测蛋白质的三维结构。他们成功预测了几乎所有已知的2亿种蛋白质的结构。而贝克则创造了从未存在的全新蛋白质,很多新蛋白质具有全新的功能。

蛋白质的最初模糊图像

化学家从19世纪开始就知道蛋白质对生命过程的重要性,但直到20世纪50年代,化学工具才足够精确,使研究人员能够开始更详细地探索蛋白质。剑桥的研究人员约翰·肯德鲁(John Kendrew)和马克斯·佩鲁茨(Max Perutz)在20世纪50年代末通过使用X射线晶体学方法,成功地展示了首个蛋白质的三维模型。这一突破性的发现为他们赢得了1962年诺贝尔化学奖。

随后,研究人员主要依靠X射线晶体学,并付出了巨大的努力,成功地获得了大约20万种不同蛋白质的图像,这为2024年诺贝尔化学奖奠定了基础。

一个谜题:蛋白质如何找到其独特的结构?

美国科学家克里斯蒂安·安芬森(Christian Anfinsen)做出了另一项早期的发现。他通过各种化学手段使现有的蛋白质展开并重新折叠,结果每次蛋白质都能折叠成完全相同的形状。1961年,他得出结论,蛋白质的三维结构完全由其氨基酸序列决定。因这一发现,安芬森在1972年获得了诺贝尔化学奖。

然而,安芬森的逻辑包含一个悖论,美国另一位科学家赛勒斯·莱文萨尔(Cyrus Levinthal)在1969年指出,即使一个蛋白质仅由100个氨基酸组成,理论上它可以假设至少10^47种不同的三维结构。如果氨基酸链是随机折叠的,它可能需要比宇宙的年龄还长的时间才能找到正确的蛋白质结构。但在细胞中,这个过程只需几毫秒。那么,氨基酸链是如何折叠的呢?

安芬森的发现和莱文萨尔悖论暗示了折叠是一个预定的过程,重要的是,关于蛋白质如何折叠的所有信息都必须存在于氨基酸序列中。

化学的重大挑战:预测问题

这些洞见引发了另一个决定性的认识——如果化学家知道蛋白质的氨基酸序列,他们就应该能够预测蛋白质的三维结构。这是一个令人兴奋的想法。如果成功,他们将不再需要繁琐的X射线晶体学,可以节省大量时间。他们也将能够生成所有X射线晶体学无法应用的蛋白质结构。

这些逻辑结论揭示了成为生物化学领域重大挑战的预测问题。为了促进该领域的快速发展,1994年,研究人员启动了一个名为“蛋白质结构预测关键评估”(CASP)的项目,最终发展成为一项竞赛。每两年,全球研究人员会获得一些新确定结构的蛋白质氨基酸序列,但这些结构对参与者保密。挑战是基于已知的氨基酸序列预测这些蛋白质的结构。

CASP吸引了许多研究人员,但解决预测问题证明是极其困难的。研究人员提交的预测结果与实际结构的匹配几乎没有改善。直到2018年,围棋大师、神经科学专家及人工智能领域的先驱德米斯·哈萨比斯进入该领域,才迎来了突破。

棋盘大师加入蛋白质奥林匹克

我们先来简要了解德米斯·哈萨比斯的背景:他四岁开始学棋,十三岁时已经达到大师水平。少年时期,他开启了编程和成功的游戏开发者生涯,随后开始探索人工智能,并深入神经科学领域,取得了几项革命性发现。他利用对大脑的研究,开发出更优秀的神经网络模型。2010年,他联合创立了DeepMind公司,开发出为棋类游戏设计的顶级人工智能模型。2014年,公司被谷歌收购,两年后,DeepMind凭借战胜围棋世界冠军这一壮举赢得了全球关注,这一成就当时被许多人视为人工智能领域的“圣杯”。

然而,哈萨比斯的目标并不是围棋,他将围棋视为开发更好人工智能模型的手段。战胜围棋冠军后,他的团队准备迎接对人类更为重要的问题挑战。因此,2018年,哈萨比斯报名参加了第十三届CASP比赛。

哈萨比斯AI模型的意外胜利

在之前的几年里,研究人员在CASP中预测蛋白质结构的准确率最高仅为40%。通过他们的AI模型AlphaFold,哈萨比斯的团队达到了接近60%的准确率,并赢得了比赛。这一优异的结果让许多人感到惊讶——这是意料之外的进展,但离成功还有一段距离。为了真正的成功,预测准确率必须达到90%,才能与目标结构相匹配。

AlphaFold2模型如何工作

AlphaFold2的开发过程中,AI模型经过了已知的所有氨基酸序列和蛋白质结构的训练。当遇到未知结构的氨基酸序列时,AlphaFold2会在数据库中搜索相似的氨基酸序列和蛋白质结构。模型将所有相似的氨基酸序列对齐,通常这些序列来自不同物种,并调查哪些部分在进化过程中被保留下来。利用这些分析,AlphaFold2生成一张距离图,估算氨基酸在结构中的相对距离。

接着,AlphaFold2探究哪些氨基酸可能在三维蛋白质结构中相互作用。相互作用的氨基酸在进化中共同演化。如果其中一个带电荷,另一个会有相反的电荷,彼此吸引。如果其中一个被替换为疏水性氨基酸,另一个也会变得疏水。

通过反复迭代,AlphaFold2不断优化序列分析和距离图。AI模型使用称为transformers的神经网络,这些网络在大量数据中发现重要模式的能力非常强大。模型还利用步骤1中找到的其他蛋白质结构数据。AlphaFold2将所有氨基酸拼凑成一幅拼图,测试路径以生成假设的蛋白质结构,并重复运行这一过程。经过三轮迭代,AlphaFold2得出一个确定的结构,AI模型会计算不同部分与实际情况的匹配概率。

约翰·杰姆珀接过挑战

哈萨比斯和他的团队继续开发AlphaFold模型,但无论如何努力,算法始终未能完全突破。他们陷入了困境,团队也感到疲惫。这时,一位相对较新的员工约翰·杰姆珀提出了一些关键想法,帮助改进AI模型。

杰姆珀对宇宙的迷恋使他开始学习物理和数学。然而,2008年当他在一家使用超级计算机模拟蛋白质及其动态的公司工作时,他意识到物理知识可以帮助解决医学问题。2011年,杰姆珀开始攻读理论物理学博士学位,他开发了更简便的模拟蛋白质动态的方法,并迅速接过了生物化学领域重大挑战的挑战。2017年,杰姆珀听说谷歌DeepMind秘密开始预测蛋白质结构,他随即申请了工作,并凭借其蛋白质模拟经验提供了创意,促使AlphaFold模型取得了根本性改革。

惊人的结果:AlphaFold2模型的成功

新版本的AlphaFold2受杰姆珀对蛋白质的深入了解影响,并且团队开始使用最近AI领域的重大突破——transformers神经网络。这些网络比以往任何方法都更加灵活,能够在大量数据中找到模式并确定实现特定目标的重点。

经过对所有已知蛋白质结构和氨基酸序列的大量数据训练,AlphaFold2在第十四届CASP比赛中取得了惊人的结果。2020年,CASP的组织者评估结果时意识到,生物化学界50年来的挑战终于解决了。在大多数情况下,AlphaFold2的表现几乎与X射线晶体学一致,这让人们震惊。2020年12月4日,CASP的创始人之一约翰·穆尔特(John Moult)结束比赛时问道:“接下来该怎么办?”

回到另一个CASP参与者身上:诺贝尔化学奖的另一半

现在我们回到过去,聚焦另一位CASP参与者。让我们介绍2024年诺贝尔化学奖的另一半,这部分奖项与从头创造新蛋白质的艺术有关。

一本细胞学教科书让大卫·贝克改变了方向

当大卫·贝克(David Baker)开始在哈佛大学学习时,他选择了哲学和社会科学。然而,在一门进化生物学课程中,他遇到了如今经典的《分子生物学的细胞》一书的第一版。这本书让他改变了人生方向。他开始探索细胞生物学,并最终对蛋白质结构产生了浓厚兴趣。1993年,当他在西雅图的华盛顿大学成为研究组负责人时,他开始接手生物化学领域的重大挑战。通过精巧的实验,他开始探索蛋白质如何折叠。这些见解为他在20世纪90年代末期开发预测蛋白质结构的软件“Rosetta”打下了基础。

贝克成为蛋白质设计师

贝克在1998年首次使用“Rosetta”参加了CASP比赛,与其他参与者相比,表现相当出色。这次成功启发了一个新想法——贝克的团队可以反向使用该软件。与其将氨基酸序列输入Rosetta并输出蛋白质结构,他们应该能够输入所需的蛋白质结构,生成其氨基酸序列的建议,从而创建全新的蛋白质。

贝克实验室的独特蛋白质

蛋白质设计领域开始于20世纪90年代末,在这个领域中,研究人员创造具有新功能的定制蛋白质。在许多情况下,研究人员调整现有蛋白质,使其能够执行诸如分解有害物质或作为化学制造业工具的任务。

然而,自然界中的蛋白质种类有限。为了增加获得具有全新功能的蛋白质的潜力,贝克的研究团队希望从零开始设计蛋白质。正如贝克所说:“如果你想造飞机,不应该从修改一只鸟开始;相反,你应该了解空气动力学的基本原理,并基于这些原理建造飞行机器。”

一个独特的蛋白质诞生

完全从头开始构建新蛋白质的领域称为“de novo设计”。研究小组绘制了一个全新结构的蛋白质图,并让Rosetta计算出哪种氨基酸序列可以生成所需的蛋白质。为此,Rosetta搜索了所有已知蛋白质结构的数据库,寻找与目标结构相似的蛋白质片段。然后,利用对蛋白质能量景观的基本认识,Rosetta优化了这些片段并提出了氨基酸序列的建议。

为了验证软件的成功,贝克的研究团队将建议的氨基酸序列基因引入细菌,细菌会产生所需的蛋白质。然后,他们使用X射线晶体学确定了蛋白质结构。

结果表明,Rosetta确实能够构建蛋白质。研究人员开发的蛋白质Top7几乎完全符合他们设计的结构。

贝克实验室的惊人创作

对于蛋白质设计的研究人员来说,Top7是一个惊喜。此前那些设计出来的de novo蛋白质只能模仿现有结构。而Top7的独特结构在自然界中并不存在。此外,Top7含有93个氨基酸,比此前通过de novo设计产生的任何蛋白质都要大。

贝克在2003年发表了这一发现。这是被称为“非凡发展”的第一步;贝克实验室创造出的许多壮观的蛋白质可以在图4中看到。他还公开了Rosetta的代码,全球研究社区继续开发该软件,寻找新的应用领域。

曾经需要数年的工作,现在只需几分钟

当德米斯·哈萨比斯和约翰·杰姆珀确认AlphaFold2确实有效后,他们计算了所有人类蛋白质的结构。随后,他们几乎预测了到目前为止研究人员已发现的所有2亿种蛋白质的结构。

谷歌DeepMind还将AlphaFold2的代码公开,任何人都可以访问。如今,这个AI模型成为了研究人员的宝库。截至2024年10月,AlphaFold2已经被来自190个国家的200多万人使用。过去,获得蛋白质结构往往需要数年时间,有时甚至无法获得。如今,这个过程只需几分钟。虽然该AI模型并非完美,但它会估算生成的结构的准确性,让研究人员知道预测结果的可靠程度。图5展示了AlphaFold2如何帮助研究人员的众多示例中的一部分。

David Baker实验室的Rosetta也受益于AI突破

在2020年CASP比赛结束后,当大卫·贝克意识到基于transformer的AI模型的潜力时,他也将其引入了Rosetta,这大大促进了de novo蛋白质设计的发展。近年来,贝克实验室中一个接一个地创造出令人惊叹的蛋白质(图4中展示了一部分)。

令人眩晕的发展造福人类

蛋白质作为化学工具的惊人多样性反映了生命的巨大多样性。我们现在能够如此轻松地可视化这些小型分子机器的结构,这令人惊叹;它让我们能够更好地理解生命的运作,包括某些疾病如何发展、抗生素耐药性如何产生,或为什么某些微生物能够分解塑料。

创造具有新功能的蛋白质的能力同样令人震撼。这可以带来新的纳米材料、靶向药物、更快速的疫苗开发、极小的传感器和更环保的化学工业——仅举几例,这些应用都将极大造福人类。

接下来的展望:2024年诺贝尔化学奖的未来意义

德米斯·哈萨比斯、约翰·杰姆珀和大卫·贝克的工作展示了如何通过结合计算、人工智能和生物化学来解开蛋白质的奥秘。蛋白质的复杂性、以及通过智能算法快速预测或设计它们的能力,意味着未来我们有可能在医药、环境科学和材料科学等领域取得革命性突破。