林建甫专栏》蛋白质结构预测 AI生技新突破
今年五月由 Google DeepMind 和 Isomorphic Labs 共同发表最新一代AI的蛋白质结构预测模型AlphaFold 3 ,这是生技研究的又一大突破。(示意图/本报资料照片)
今年5月由Google DeepMind和 Isomorphic Labs共同发表最新一代AI的蛋白质结构预测模型AlphaFold 3,这是生技研究的又一大突破。
蛋白质是生命的重要分子,其卷曲折叠会构成三维结构,据此如何与DNA、RNA、药物受体等相互作用,是50年来探询的难题。2020年11月,DeepMind公司发表AlphaFold 2,参与挑战在短时间内预测出蛋白质的结构,准确度评比(Global Distance Test,GDT)高达92.4分,远高于其他模型。当时就已经被认为有机会成为「结构生物学」(Structural biology)的新世代突破。
早年解析蛋白质结构的方法要高浓度与纯度的蛋白质,利用X光绕射图谱得到适合的晶体收集数据,再透过电脑运算将蛋白质晶体的绕射图谱进行「傅立叶转换」(Fourier transform),并模拟出三维空间的电子云密度图。根据得到的电子云密度图,以及蛋白质的胺基酸序列,推测出可能的蛋白质模型。
之后使用核磁共振(Nuclear Magnetic Resonance,NMR),利用氢原子受到周围其他原子的影响而改变其吸收能量的频率,可以推测氢原子周围可能的化学基团,并预测出可能的胺基酸。核磁共振技术相较于X光晶体学的优点是不需要将蛋白质进行结晶,而是让蛋白质在水溶液的状态下进行,更接近生理状态的构型。
近年,使用冷冻低温电子显微镜,利用加速电子束打到不规则排列的蛋白质样品上,电子会产生散射形成明暗不同的影像;再利用电脑将影像重叠,生成高解析度的二维影像,接着将二维组合成三维空间的立体影像。这就可以解析蛋白质、小分子化合物以及大蛋白质聚合物的结构。
AlphaFold则是透过AI辨识蛋白质折叠可能存在的通则,从而大幅简化了分析过程;另外,亦可结合基因序列与蛋白质资料库的数据,透过序列比对,找出蛋白质的性质,即胺基酸之间的距离与连接胺基酸键结的角度。由于现在庞大的算力,甚至可以使用整段蛋白质序列进行结构预测,而不需要将蛋白质拆开成不同的片段分开预测,加深整合判断难度。
AlphaFold 3的第一代是AlphaFold 1,在2018年推出,当时它立即展示了深度学习在蛋白质结构预测中的能力。三大贡献包括:使用多序列比对(MSA)和共变异分析来提取蛋白质序列的特征;之后套到模型,预测胺基酸残基之间的距离和扭转角,来构建蛋白质的三维结构;最后使用梯度下降法来确定符合预测距离和角度约束的蛋白质结构。
第二代的AlphaFold 2,AI主要技术进步包括:端到端深度学习模型,直接从蛋白质序列预测其三维结构,而不需要中间的特征提取步骤,并且引入了基于Transformer 的注意力机制,使模型能够更好地捕捉蛋白质序列中的长程依赖关系;而原来的MSA更用来捕捉序列间的共变异信息,帮助提高预测准确性。另外,也使用已知的蛋白质结构作为模板,帮助模型更准确地预测未知蛋白质的结构。
最新的AlphaFold 3虽然在很大程度上继承了AlphaFold 2的设计,但是在每个关键元件上都进行了重大调整,并且大力改进了架构和训练过程。MSA被大幅的简化,从而可以聚焦提取更加关键的进化资讯。成对残基关系编码器(Pairformer)取代了原有的进化特征处理单元(Evoformer),只处理成对和单一的表征。
因为不再保留MSA表征,可以把资讯通过成对表征模组进行传递,增强了复杂相互作用模式的建模能力,以及把结构生成器从以胺基酸为中心,改为直接预测原子座标,增加了处理通用分子结构的灵活性。在处理了输入资料后,AlphaFold 3还会用扩散(diffusion)网路来整合预测结果,这就跟我们用AI来生成图片的原理是一样的。
由于这些进展,AlphaFold 3能够为生物科学研究开辟了新的道路,未来将可加速药物设计与基因研究,也可开发生物可再生材料、更具抵抗力的农作物。这对于生技产业将有大利多。(作者为中信金控首席经济学家、中信金融管理学院讲座教授)