聂再清:AI制药的成功,不是「让AI独立做药」

GPT-4的发布在全球掀起了“炼大模型”的热潮。面对这一新蓝海,科技巨头、初创企业和科研院校相继开启布局。有统计称,截至今年4月底,国内共推出了超300 个大模型[1]。

在生命科学和生物医药领域,生成式大模型的开发同样风起云涌,水木分子也是其中的“弄潮儿”。水木分子由清华大学智能产业院(AIR)孵化成立,清华大学国强教授、AIR首席研究员聂再清教授担任首席科学家。

自2023年6月成立以来,水木分子已经开发了ChatDD-FM、BioMedGPT、LangCell和MV-Mol等多个多模态生物医药基础模型。如此短的时间,水木分子是如何实现这些成就的?生物大模型在未来究竟有哪些应用场景?大模型对于赋能AI制药能够带来怎样的帮助?未来3-5年,大模型的主要发展方向有哪些?

近⽇,带着这些问题,医药魔方Pro有幸采访到了AIR首席研究员、水木分子首席科学家聂再清教授。

聂再清博士,现任清华大学国强教授、AIR首席研究员,水木分子首席科学家。聂再清博士于2004年获得美国亚利桑那州立大学博士学位,师从美国人工智能学会前主席Subbarao Kambhampati教授,此前曾就读于清华大学计算机科学与技术系。2017年10月,聂再清博士加入阿里巴巴,任阿里巴巴人工智能实验室北京研发中心负责人和阿里巴巴天猫精灵首席科学家,也是教育部人工智能专家组咨询组专家。此前,聂再清博士就职于微软亚洲研究院,任首席研究员,主要负责微软自然语言理解、实体挖掘的研发工作。在微软期间,他是微软学术搜索、人立方、企业智能助理EDI的发起人和负责人,也是微软自然语言理解平台LUIS的技术负责人。

医药魔方Pro:您最初想开发生物模型的初衷是什么?从最初想法到成功实现花了多久?

聂再清教授: 以ChatGPT为代表的大语言模型展现出令人惊喜的智能涌现与触类旁通的能力。原子、分子可以看作是一种化学语言编码,以蛋白质为基础的生命现象本质是一种自然进化的语言编码。

我们最初的想法是,希望基于创新的多模态大模型框架,实现将人类总结的知识(文本语言大模型)与氨基酸、分子、蛋白等化学、生物语言大模型压缩到统一的大模型框架内,进行编码与学习,打通自然语言与化学、生物编码语言,这样有助于理解生物编码语言机制,真的做到一个智能的生物医药研发助手。

从最初的想法到实现,经历了两年左右的时间。

我们在2022年底提出BioMedGPT全新的多模态语义理解框架。2023年4月,我们先开源了轻量科研版BioMedGPT1.6B,验证了将文献、分子、蛋白、测序、知识图谱等数据压缩到统一的多模态大模型框架内,可使模型具备“融汇贯通”的能力,在分子性质预测、药物-靶点亲和力预测、性质预测、药物敏感性预测、分子-文本跨模态检索、分子-文本跨模态信息生成等多项任务上优于单一专用模型,从研究层面验证了技术可行性。2023年8月,AIR联合水木分子开源了全球首个可商用多模态生物医药百亿参数大模型BioMedGPT-10B。

整个过程虽然充满挑战,但看到最终的成果,所有的努力都感觉非常值得。

医药魔方Pro:您是算法出身,又深耕互联网多年,您是在什么契机下关注到生物医药领域,并决定担任水木分子首席科学家的?

聂再清教授: 想开发一个生物医药研发助手的想法,其实跟我之前的工作经历关联挺紧密的。

在微软的时候,我主要就是搞学术搜索,帮助科研人员从海量的论文里找到他们需要的信息。后来去了阿里巴巴,又带领团队孵化出了天猫精灵,这其实也是个智能助手,通过对话来帮助用户解决问题。到了清华AIR,我负责的智慧医疗项目,又让我接触到了医药研发,这一块对数据的处理和分析要求特别高。

所以,当我想到把这两个领域结合起来,用对话式助手来帮助药物研发,无论是学术搜索还是智能助手,核心都是信息的获取和处理,而这正是药物研发中非常需要的。参与孵化水木分子正是基于这样的一个初衷,打造生物医药行业基础大模型及新一代对话式生物医药研发助手ChatDD,让所有的公司都能开发创新药物,所有的生物医药研发人员、从业人员都能有随叫随应的高智能助手。

医药魔方Pro:能否请您整体介绍一下您的研究团队近期在生物医药模型研究方面的进展?

聂再清教授: 我们近期在生物模态数据的表示学习、生物与文本跨模态模型研究方面取得了多项研究进展,开发了LangCell单细胞与文本跨模态大模型、分子与文本的跨模态大模型MV-Mol;还开发了能够同时处理结构化和非结构化数据,以支持广泛的人工智能药物发现任务的KEDD;以及与北京大学、和南京大学团队合作的跨尺度原子级蛋白质表示学习模型ESM-AA、分子3D表示学习Mol-AE。以下分别简要介绍一下这几项研究工作:

LangCell

细胞身份的识别,是生物科学领域的一大热点。这不仅关乎细胞的“户口调查”,还关系到它们在组织中的“社交关系”,以及它们对“生物信号”和“环境变化”的敏感反应。LangCell通过学习富含细胞身份信息的知识性文本,有效提升了单细胞转录组学表示学习能力,并解决了数据匮乏场景下的细胞身份理解任务,帮助研究人员更高效、更准确地从单细胞数据中提取有用的生物学信息,加速新细胞类型的发现和理解。目前LangCell可以实现对细胞身份的精准识别,LangCell模型有望成为预测药物反应和个性化医疗的重要工具[2]。

MV-Mol

针对传统的分子表示学习模型在处理来自不同来源的异构数据时,捕获不同视角的分子信息方面存在不足,我们在KDD2024发表的论文提出了MV-Mol模型,利用文本提示(text prompts)显式地对不同视角的信息进行建模,并通过融合架构提取基于视角的分子表示。MV-Mol是首个解决分子表示学习中多视角挑战的工作,它通过自然语言描述不同视角,并利用视角提示之间的语义关联,来捕获共识和互补特征[3]。

KEDD

目前,多模态方法在整合分子结构、知识库中的有序信息以及医学文献中的非结构化数据时,通常只关注结构化知识或非结构化知识的其中之一,限制了对生物分子的全面认识,且现有技术还未能解决新药物和蛋白质在模态信息上的缺失问题。

我们团队开发的KEDD(Knowledge-Empowered Drug Discovery)框架是一个全面的深度学习解决方案,能够同时处理结构化和非结构化数据,以支持广泛的人工智能药物发现任务。这种方法使得KEDD在预测药物-靶标相互作用、药物属性、药物-药物相互作用以及蛋白质-蛋白质相互作用方面,分别比现有最先进模型提高了5.2%、2.6%、1.2%和4.1%的准确率。KEDD提供了一个创新的端到端深度学习框架,通过整合多种模态的知识,有效应对了药物发现过程中的多个难题[4]。

KEDD在Yamanishi08和BMKG数据集上热启动(药物和蛋白质是随机划分的)和冷启动(测试集中的药物、蛋白质和两者在训练过程中都是不可见的)条件下药物-靶标相互作用预测的性能比较

ESM-AA

传统的蛋白质语言模型(PLMs)主要在残基(氨基酸)尺度上运作,限制了它们在原子尺度上提供信息的能力。这就像是用一个模糊的镜头观察世界,虽然能看到大致的轮廓,但细节却难以捕捉。

我们在ICML2024发表的论文中提出一种创新的蛋白质语言模型ESM-AA,它结合了残基和原子尺度的信息,实现了在两个尺度上的操作,并能够接受蛋白与分子的原子级信息输入,从而提供了更全面的理解并预测蛋白质与小分子之间的相互作用,这对药物设计和酶工程等领域具有重大意义。ESM-AA的核心价值体现在其多尺度原子级统一建模能力、新颖的多尺度位置编码、高效的预训练策略,以及在蛋白质-分子相互作用任务中的卓越性能。它不仅超越了传统方法,还在标准分子基准测试中表现出色,显示出统一分子建模的巨大潜力[5]。

MOL-AE

在药物发现、分子属性预测和化学反应预测等领域,三维分子数据包含的三维结构信息提供了更全面的分子信息,因此对3D分子的表示学习扮演着至关重要的角色。我们在论文中提出了MOL-AE,通过自编码器(Auto-Encoder)模型和一种新颖的3D Cloze Test目标,显著提升了3D分子建模的性能[6]。

医药魔方Pro:人工智能浪潮下,“AI制药”是风口还是泡沫?您觉得“AI制药”怎样才算真正的成功?

聂再清教授: 首先,我并不认为AI能够完全取代科学家,直接研发出新药来。科学家的经验和直觉是非常宝贵的,但人脑毕竟有限,不可能覆盖所有生物医学领域的知识,这就是AI可以发挥作用的地方。AI擅长处理和分析大量的文献专利、数据、调用算法工具,通过专家提问方式激发大模型,将相关信息组织出来,这样就能大大提升药物研发的效率。

ChatDD的目标就是建立一个高效的联结,把科学家的经验和直觉,与分子、蛋白、基因、海量数据、知识,以及各种药物发现和设计的工具结合起来。通过这种方式,科学家的大脑和AI系统能够相互补充,共同推动药物研发的进程。

所以,"AI制药"的成功,并不是看AI能否独立完成药物研发,而是看它能否成为科学家的得力助手,帮助他们更快地找到解决方案,提高研发的成功率。如果AI能够做到这一点,那么它就不是泡沫,而是真正的行业创新和进步。

展望未来3-5年的发展趋势,我认为人工智能产业应用领域将围绕大模型核心技术展开,大模型将从通用走向各行各业垂直应用,真正成为各行各业的智能操作系统。

针对大模型应用于生物医药领域技术发展,我认为,首先,生物信息的表示学习有很大空间,如何统一的表示不同尺度的生物数据,如化学小分子、氨基酸、蛋白质等;其次,关于生物编码语言和自然语言如何更好的对齐,例如怎么描述分子的结构和功能,怎么解释突变带来的蛋白功能改变;最后,关于大模型智能体如何更好的使用专业知识、调用各种工具和外面的数据,更有效地和真实物理世界联结,例如和湿实验平台结合去更好的完成任务。

-上下滑动查看参考资料 -

[1]https://www.nbd.com.cn/articles/2024-05-17/3393020.html

[2]Zhao S, Zhang J, Wu Y, Luo Y, Nie Z. LangCell: Language-Cell Pre-training for Cell Identity Understanding. arxiv:240506708[q-bioGN,csAI,csCL]. Published online May 9, 2024.. (ICML 2024)

[3] Luo Y, Yang K, Hong M, et al. Learning Multi-view Molecular Representations with Structured and Unstructured Knowledge. arxiv:240609841[csLG,q-bioBM]. Published online June 14, 2024.(KDD 2024)

[4] Yizhen Luo, Xing Yi Liu, Kai Yang, Kui Huang, Massimo Hong, Jiahuan Zhang, Yushuai Wu, Zaiqing Nie. Toward Unified AI Drug Discovery with Multimodal Knowledge. Health Data Sci. 2024;4:0113.DOI:10.34133/hds.0113

[5] Zheng K, Long S, Lu T, et al. ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling. arxiv:240312995[q-bioBM,csCE,csLG]. Published online March 5, 2024.(ICML 2024)

[6] Yang J, Zheng K, Long S, et al. Mol-AE: Auto-Encoder Based Molecular Representation Learning With 3D Cloze Test Objective. Published online April 15, 2024. doi:10.1101/2024.04.13.589331(ICML 2024)

Copyright © 2024 PHARMCUBE. All Rights Reserved.

欢迎转发分享及合理引用,引用时请在显要位置标明文章来源; 如需转载,请给微信公众号后台留言或发送消息,并注明公众号名称及ID。

免责申明:本微信文章中的信息仅供一般参考之用,不可直接作为决策内容,医药魔方不对任何主体因使用本文内容而导致的任何损失承担责任。