蛋白质结构预测 AI生技新突破

(图/本报系资料照)

5月由Google DeepMind和Isomorphic Labs共同发表最新一代AI的蛋白质结构预测模型AlphaFold 3,这是生技研究的又一大突破。

蛋白质是生命的重要分子,其卷曲折叠会构成三维结构,据此如何与DNA、RNA、药物受体等相互作用,是50年来探询的难题。2020年11月,DeepMind公司发表AlphaFold 2,参与挑战在短时间内预测出蛋白质的结构,准确度评比高达92.4分,远高于其他模型。当时就已经被认为有机会成为「结构生物学」的新世代突破。

早年解析蛋白质结构的方法要高浓度与纯度的蛋白质,利用X光绕射图谱得到适合的晶体收集数据,再透过电脑运算将蛋白质晶体的绕射图谱进行「傅立叶转换」,并模拟出三维空间的电子云密度图。根据电子云密度图及蛋白质的胺基酸序列,推测出蛋白质模型。之后使用核磁共振,不需要将蛋白质进行结晶,而是让蛋白质在水溶液的状态下进行,更接近生理状态的构型。

近年使用冷冻低温电子显微镜,利用加速电子束打到蛋白质样品上,电子会产生影像;再利用电脑生成高解析度的二维、三维空间的立体影像。这就可以解析蛋白质、小分子化合物以及大蛋白质聚合物的结构。

AlphaFold则是透过AI辨识蛋白质折叠可能存在的通则,从而大幅简化了分析过程;另外,亦可结合基因序列与蛋白质资料库的数据,找出蛋白质的性质。由于现在庞大的算力,甚至可以使用整段蛋白质序列进行结构预测,而不需要将蛋白质拆开成不同的片段分开预测,加深整合判断难度。

AlphaFold 3的第一代是AlphaFold 1,在2018年推出,当时它立即展示了深度学习在蛋白质结构预测中的能力。三大贡献包括:使用多序列比对(MSA)和共变异分析来提取蛋白质序列的特征;之后套到模型,预测胺基酸残基之间的距离和扭转角,来构建蛋白质的三维结构;最后使用梯度下降法来确定符合预测距离和角度约束的蛋白质结构。

第二代的AlphaFold 2,AI主要技术进步包括:端到端深度学习模型,直接从蛋白质序列预测其三维结构,而不需要中间的特征提取步骤,并且引入了基于Transformer的注意力机制,使模型能够更好地捕捉蛋白质序列中的长程依赖关系;而原来的MSA更用来捕捉序列间的共变异信息,帮助提高预测准确性。另外,也使用已知的蛋白质结构作为模板,帮助模型更准确地预测未知蛋白质的结构。

最新的AlphaFold 3虽然在很大程度上继承了AlphaFold 2的设计,但在每个关键元件上都进行了重大调整,并大力改进架构和训练过程。MSA被大幅简化,从而可聚焦提取更加关键的进化资讯。成对残基关系编码器取代了原有的进化特征处理单元,只处理成对和单一的表征。

因为不再保留MSA表征,可把资讯通过成对表征模组进行传递,增强了复杂相互作用模式的建模能力,以及把结构生成器从以胺基酸为中心改为直接预测原子座标,增加了处理通用分子结构的灵活性。在处理输入资料后,AlphaFold 3还会用扩散网路来整合预测结果,这就跟我们用AI来生成图片的原理是一样的。

由于这些进展,AlphaFold 3能够为生物科学研究开辟了新的道路,未来将可加速药物设计与基因研究,也可开发生物可再生材料、更具抵抗力的农作物。这对于生技产业将有大利多。(作者为中信金控首席经济学家、中信金融管理学院讲座教授)