跨越医学与天文学!Google用机器学习发现行星、分析DNA

记者洪圣壹台北报导

在前一篇报导当中,Google 用相当有趣的方式,让民众亲身体验什么是「机器学习」,而在世界的另一个角落,其实 Google 早已将这项技术拓展到天文学领域,协助天文学家执行「克卜勒任务」;甚至拓展到医学领域,协助医生透过检测 DNA 序列来寻找可能的疾病

克卜勒任务(Kepler mission) 为 2009 年 5 月开始的计划。相关统计数据指出,天文学家们透过克卜勒太空望远镜(Kepler space telescope)在 4 年期间搜集超过 20 万颗恒星亮度,以平均 30 分钟记录一次每颗恒星的亮度来计算,每颗恒星至今已记录大约 7 万次亮度,透过人工的方式筛选,这些天文学家至今已经筛选了超过 3 万个透过克卜勒太空望远镜所侦测到的讯号,当中约有 2,500 个讯号被认定为行星,但由于耗时且许多较弱的讯号同时也有较多杂讯,以致于无法透过人工方式判别是否为行星。

一般来说,天文学家传统在寻找行星的作法分为两阶段,第一阶段是透过电脑演算法找出潜在行星讯号,接着进入第二阶段,由天文学家判断哪些讯号是来自真实的行星。

然而,不管是第一阶段还是第二阶段,人类在应付这些庞大资料,往往都是旷日费时、而且还有可能发生误差,也因此产生了 Google 透过机器学习技术,将运算模型套运到探索行星的任务当中,在过程中建立一个神经网路分类克卜勒的讯号。

谈到机器学习,当然就要先看大数据,Google Brain研究团队资深软体工程师 Chris Shallue 表示,研究人员透过利用 15,000 个天文学家已人工标记的克卜勒讯号来训练模型,当中Google采用卷积神经网路(convolutional neural network)来预测侦测到的讯号为行星的机率。在有了固定的训练模组之后,紧接着再透过模型搜寻克卜勒资料库中的 670 个恒星并借此辨别新行星,辨别的方式有点像是 Google 相簿图像辨识,而这也是克卜勒-90 i 和克卜勒-80 g被发现的原因,在这当中,克卜勒-90 i 是克卜勒 90 星系中最小的一颗星球,而克卜勒-90 i 是距离其恒星第三靠近的行星。

Google 机器学习团队下一个目标是运用模型运算整个克卜勒资料库中超过 20 万颗的恒星,而现在已在 20 万颗恒星中探索 670 个。目前为止,尚未能解决的一个问题是假阳性预测(background false positives)。举例来说,有可能侦测到一颗恒星的亮度其实是来自附近恒星的亮度,现阶段来说,模型还无法辨别行星的讯号是来自哪一颗恒星。目前仍仰赖以人工的方式来确认模型侦测到的行星位置讯号,未来希望可以将位置资讯结合制模型当中,让模型可以辨别这类的讯号。

除了透过机器学习协助人类发现行星,Google 还透过机器学习协助人类分析基因序列,近年来基因组测序帮助许多以前无法解决的病例。例如:帮助医生决定癌症标靶治疗是否有效;当新生儿发现无法解释的疾病时,医院可使用基因组测序来寻找可能的病因。

透过Google Brain研究团队资深软体工程师张碧娟解释,上述的方式称为「变体识别(Variant Calling)」,因为每个人的基因和人类参考基因组不会完全一样,研究人员借此先找出「个体」和「参考基因组」之间的差异,而这也是许多医疗及药物开发的第一步。在这边需要说明的是,不是所有的变体都会产生疾病,变体识别只是找出差异性的第一步,并不包含预测一个变体是否会产生疾病。

变体识别的困难度来自于基因组序列的庞大资料量,以及仪器读取特性。为了能精准的识别出这些变体,新一代测序仪「高通量测序技术 (High-throughput sequencing, HTS) 」开启了基因测序革命。

然而新一代测序仪虽提供大量、快速且低成本的数据,但由于这些 DNA 读序相当片段,加上测序仪的结果有许多错误,这些错误有可能是样本 DNA 本身的品质,有可能是仪器本身的物理特性,有可能是仪器准备样品的协议,也有可能是基因读序的错误之间具有相关性,加上以现有普遍的变体识别工具依然维持传统的统计技术,虽然合理,但通常需仰赖大量人工设计、手调参数,也需要花费专家多年的时间,而且很难快速推广至新的测序技术。

对此,Google Brain 团队与 Verily Life Sciences 合作花了两年多时间开发了一套所谓「DeepVariant」技术,主要是为了提高基因组测序准确性所开发的工具,使用的资料来源是基因组测序技术,透过深度学习(Deep Learning)可以从数据中直接学习哪种参数最有用,而不需要人工手调参数,主要用来分析 DNA 序列,研究人员将测序仪所读到的数据编码成为图像的格式,然后使用常见的图像分类演算法,训练出准确的「变体识别模型」。这项突破让团队在 2016 年及 2017 年赢得美国食品药物管理局所分别举办的变体识别比赛。而这项技术于 2017 年 12 月由 Google Brain 团队正式开源

此外,Google Brain 团队与 Google Cloud 合作,在 Google Cloud Platform(GCP)上提供 DeepVariant 工作流程,帮助开发者与研究人员透过 GCP 上的技术用规模化的方式优化配置且降低成本、缩短周期。

在未来,Google 希望借由结合基因组测序资料,以及实际的临床结果与病史,进一步验证 DeepVariant 的准确性以及对于衍生应用的帮助。此外,Google 初步发现,在其他动物 (例如老鼠) 以及植物 (例如米) 上的变体识别,也有很高的准确率。这表示 DeepVariant 可以应用在农业或甚至其他的生物研究上,而在这次的访谈当中,Google 也证实开发团队确实要将这项成功经验拓展至农业或其他生物研究领域当中。

*相关图片与资料来源:用机器学习发现新行星、DeepVariant