专访王晟:RNA结构预测是一项非常底层的技术

近日,智峪生科宣布,在刚刚落幕的 CASP15 上,旗下 ALCHEMLY-RNA2 团队在 RNA 结构预测项目上位列第一,ALCHEMLY-LIG 团队在分子对接项目上取得 top3(注:按照全部提交答案排名第二, 按第一个提交答案排名第三)的成绩。同时,两支队伍均受邀参加 CASP15 研讨会并做主题报告。

其中,RNA 结构预测是今年 CASP15 大赛中最受关注的领域之一,蛋白质-小分子复合体预测是首次出现在 CASP15 大赛中。据悉,在 RNA 结构预测项目上,该公司将 AI 方法 RhoFold 和统计能量函数相结合;在蛋白质-小分子复合体预测上则采用了基于结构优化监督的 transformer 深度学习模型。

本次大赛,全球共有 163 个队伍参赛,累计提交超 53000 个模型,涵盖 5 个预测类别,127 个建模目标。

(来源:CASP15)

智峪生科是一家成立于 2021 年的生物计算平台型公司,目前的重点布局方向是基于计算的药物辅助研发和合成生物学业务。此前,该公司已连续获得了由鼎晖投资和朗煜投资领投的天使轮和高瓴创投领投的 Pre-A 轮融资,累计融资超亿元。

借此机会,生辉采访了智峪生科的 CEO 王晟博士,他向生辉介绍了在本次 CASP15 上取得的成绩以及算法模型的应用前景。

王晟拥有超十年蛋白质结构预测研究经验,本科毕业于上海交通大学生命科学院,并在中科院理论物理所获得博士学位,博士后研究师从芝加哥丰田计算技术研究所教授许锦波。曾作为主要开发者开发出 RaptorX-Contact 方法,该方法的蛋白质预测精度最高达到 80%。今年 5 月,王晟正式加入智峪生科担任 CEO,此前他是腾讯 AI Lab 的高级研究专家,主导开发了 tFold 工具。

▲图|王晟博士(来源:受访者提供)

两种预测方法:从底层涵盖所有 RNA 结构的可能性

在本次 CASP15 上,共有 12 个 RNA 预测结构,从结构上可以分成三类,一类是天然的 RNA,一类是人工设计的 RNA,还有一类是蛋白质和 RNA 相互作用的复合结构。

针对这些不同的 RNA 结构,该公司提出了两种结构预测工具,一种是基于 AI 的预测方法 AIchemy_RNA,另一种是统计能量函数 AIchemy_RNA2。

官方资料指出,AIchemy_RNA 底层的核心方法称之为 RhoFold,由智峪生科团队主导,并联合港中文和复旦大学团队共同完成。这也是全球第一款全自动的端到端 RNA 3D 结构预测深度学习模型,目前源代码已开源。

公开资料显示,与其他的 AI 结构预测模型相比,RhoFold 采用了一个预训练的语言模型 RNA foundation model (RNA-FM),这是一个可为 RNA 研究提供丰富结构功能知识的基石模型,其在 2300 万个非冗余 RNA 序列上通过自监督的方式进行训练,并学习丰富的 RNA 序列信息。RhoFold 利用 RNA-FM 得到的 RNA 序列表征来送入模型,其中在大量数据库中学习到的 RNA 序列表征能够帮助模型快速收敛;RhoFold 还引入多任务训练帮助模型学习生物学语义,并将 RNA 中二级结构碱基互补配对信息以损失函数方式整合,帮助模型学到碱基配对的约束信息;此外,通过自蒸馏的训练方式训练好教师模型,生成自蒸馏(self knowledge distillation)数据的伪标签,并从其他数据库中构建自蒸馏数据。

王晟告诉生辉,这些特点使 RhoFold 可以在有限的 RNA 结构数据上训练出了一个高效准确的深度学习模型,实现端到端预测 RNA 3D 结构。更重要的一点是,RhoFold 还可以全自动判断输出结构的预测置信度。也就是说,该模型可以自动判断它输出的结构是否合理的,是否还需要人工检查。

基于 AI 的方法主要采取多重序列比对(Multiple sequence alignment,MSA)和 RNA FM 作为输入,对于能够搜到同源序列的天然 RNA,RhoFold 即可做出比较精准预测出 RNA 三维结构。同时,这种 AI 方法预测速度也更快,几分钟就可以运行出结果。

然而,对于人工合成的 RNA,或从未出现在 PDB 数据库中的天然 RNA 结构,AI 方法往往无法产生多序列联配。这时,RhoFold 会给出预测置信度,并给出提示,这些 RNA 需要进一步处理。这种情况下,就需要借助统计能量函数方法或其它人工手段进一步操作。统计能量函数往往预测精确度很高,但是预测速度比较慢。

据王晟介绍,AIchemy_RNA2 方法由智峪生科团队完成,其背后的核心是基于核心负责人之前其发表的 RNA-BriQ 统计能量函数。具体而言,RNA-BRiQ 的相互作用不再由简单的距离和角度来表示,而是考虑了 RNA 的相关原子在三维结构上的电子云分布,通过 6 个纬度的统计来刻画,在每个维度上将空间进行离散化进而实现精确统计和量化计算。

(来源:智峪生科)

王晟进一步指出,RNA-BriQ 能量函数在 RNA 结构预测上对极性相互作用有着很好的表征能力,因为稳定 RNA 结构的主体能量是极性相互作用、有着强烈的空间方向分布。RNA-BriQ 这种统计能量函数方法,对于人工合成的 RNA,或从未出现在 PDB 数据库中的天然 RNA 结构建模有着非常优异的效果。

“总而言之,我们推出了两种 RNA 结构预测方法,并将 AI 和统计能量函数方法结合在一起,希望从底层涵盖所有 RNA 结构的可能性。”王晟补充道。

“目前,由于 RNA 的结构数量过少以及对 MSA 信息的依赖,纯 AI 方法还没能够针对任意序列实现 RNA 结构的精确预测,也就是说 RNA 结构预测还处于一个前 AlphaFold2 时代。不过,在未来,随着我们积累越来越多的 RNA 结构数据,训练更强大的 RNA 序列基础模型、以及 AI 方法与统计能量函数更深入的融合,相信整个 RNA 结构预测领域会进入真正的 AlphaFold2 时代,AI 之光会照亮整个 RNA 结构预测领域。”

“RNA 结构预测是一项非常底层的技术”

RNA 在生命活动中执行着多种生物学功能,RNA 三维空间结构的预测更是对基础科学和药物研发、合成生物学发展具有重大的意义。

以本次大赛为例,比赛中共有 12 个 RNA 靶点,按照功能可以大体分为四类,分别为功能 RNA 分子、病毒基因组 RNA 片段、人工设计的 RNA 以及蛋白 RNA 复合物。其中,功能 RNA 分子在基因表达调控方面起重要作用,病毒基因组 RNA 对于人类理解病毒复制传播机理、开发抗病毒药物扮演着重要角色,人工设计 RNA 分子有助于合成生物学应用,而蛋白 RNA 复合物的应用方向是药物开发。

“RNA 结构预测是一项非常底层的技术,我们开发的 AI 算法与统计能量函数方法是在 RNA 结构预测水平上的突破,有潜力为生命科学的各个方向带来进步。只有不断在真正的底层科研上取得很大突破,才能为落地带来更大的进步。我们正在与高校合作,借助学校资源在底层技术上取得突破,然后通过校企合作或者专利成果转化等方式促进商业化落地。”王晟说。

(来源:Semantic Scholar)

首先,这些方法将有助于研究人员解析更多的 RNA 结构。在接下来基于实验方法解析 RNA 结合并扩充 PDB 数据库中的 RNA 结构数量过程中,该公司 RNA 预测方法有可能成为指导实验设计和数据处理的初始模型;

其次,针对药物设计领域,这些方法有望提高 mRNA 疫苗设计的成功率,通过高精度 RNA 3D 结构预测和 RNA-小分子复合体力场促进 RNA 小分子药物设计,还可以通过靶向 RNA 和蛋白质复合体进行药物设计,从而拓展药物设计的空间;

其三,智峪生科的主要落地场景是 AI+合成生物学,该公司计划紧密围绕 RNA 在合成生物学领域的应用,尤其是在异源表达、密码子优化以及生物传感等方面。

蛋白-小分子复合物预测模型极具通用性

智峪生科在 CASP15 中的另一个参赛项目是分子对接,也就是蛋白质-小分子复合体预测,这也是该项目首次出现在 CASP15 大赛中。

智峪生科团队其开发出的 AIchemy-LIG 系列算法是一种支持蛋白质-小分子全柔性的复合体建模的算法,底层架构称之为生物分子 AI 基础模型,这一架构更具有通用性。这也是端对端输入和输出算法,输入蛋白和小分子复合物序列,输出的是蛋白-小分子复合物结构。

据悉,该算法可以让蛋白和小分子都动起来,这种动并不是分子动力学的“动”,而是像 Alphafold2 一样,通过 AI 模拟这一过程,并基于精度给出打分,这样可以更精准预测蛋白质和小分子结合程度。基于该算法可以将几百或者上千的候选结构筛选到几百量级,进一步缩小范围。

(来源:智峪生科)

“实际上,这些算法打通了分子静态对接和动态分子动力学模拟之间的桥梁。”王晟说。

王晟还指出,这种全柔性建模可以支持大规模的复合体建模,结合超大规模的蛋白质功能标注和高精度的自由能计算,形成了多层次/多精度级别的复合体预测平台,目前已经帮公司挖掘出很多此前从未发现、具有工业价值的酶,还把这些酶进一步产业化形成公司内部的一些合成生物学管线;另一方面,这一模型也可以应用小分子药物筛选和优化。