利用电脑深度学习「基因文法」 发现导致疾病遗传因子

文/生医编辑 江盛

在本世纪初,科学家第一次完成人类完整的 DNA 序列排序。十多年以来,科学家及研究者一直试图从这些 DNA 序列中,尝试找出究竟是何种基因突变会造成疾病产生?而现今这个令人类上下求索的问题,似乎有望得到解答。

一群加拿大多伦多的研究团队利用一项新的电脑运算技术,从中发现了过往无法预测的疾病决定因子,像是自闭症遗传性疾病等。这群科学家把 DNA 当做一门困难的、陌生语言,这种语言具有数以亿计的字母,每个字母的组合,都像是未知的秘密等待人们去破解。他们解读这种语言的切入点,首先是去研究人类细胞读取 DNA 的方式,并且将所有基因突变的可能性排列出来,以便了解这些变化所会造成的疾病。研究团队认为过往的科学家似乎见树不见林,只找出会造成疾病的基因突变,但问题是——— 为什么基因突变就会导致疾病呢?

过往的研究已经得知,在把 DNA 转换成蛋白质的「RNA 剪接(RNA splicing)」过程里,若发生中断或者混乱就会产生疾病。而多伦多的研究团队却采取不同的路径,他们首先检视由内含子 (intron) 主导的 RNA 剪接过程。过往的的研究只把焦点放在转译为蛋白质的外显子(exon)突变,却遗忘虽未被转译,但也决定蛋白质生成过程的内含子(intron)。

这项艰难的研究受惠于电脑「深度学习(deep learning)」的技术,让电脑在扫描 DNA 的片段后,读取相关的基因指令,理解蛋白质的拼贴过程,以及随后生产的特定蛋白质。「深度学习」够解读复杂的生物药理关系。研究团队利用电脑的「深度学习」去寻找 RNA 剪接过程中所产生的错误及突变,并且发现预测准确度高达 9 成。包括过去那些已经被完整研究的疾病,像是直肠癌脊髓肌肉萎缩症,并且还能预测过去未被了解过的突变。

未来研究团队预计继续研究「自闭症光谱(autism spectrum)」。过往已经知道的自闭症光谱基因突变,只有寥寥十几个,采用深度学习后,多伦多的研究团队新发现 39 个自闭症光谱的基因突变可能性。而深度学习还能够被运用调查不同的疾病以及在个体之间非疾病的特征等,这项深度学习的电脑调查就像一台新一代的翻译机,未来或许将能在医学疗程中提供提供个人化药物一些不可或缺重要讯息与帮助,给予医学疗程中不可或缺的帮助。

资料来源https://medicalxpress.com/news/2014-12-deep-reveals-unexpected-genetic-roots.html

更多生医新知>>