☰

科學人／並非毫無用處！一文看次世代定序如何做到疾病預防與治療

行动基因生技股份有限公司NGS检测过程。联合报系资料照／记者曾原信摄影

随着次世代定序（next generation sequencing, NGS）技术的发展，越来越多的研究证实，基因组中占98%的非编码区域，也有许多部份都扮演重要的基因调控角色，它们也如编码区会受到相当程度的演化压力，且具有高度的序列保守性，并非无用的垃圾。非编码区域坐落着种类繁多且数量庞大的非编码RNA （non-coding RNA, ncRNA）。由于强调个体差异的「精准医疗」（precision medicine）时代来临，在研拟治疗策略，考量个体间的特征差异除了基因，还有非编码区域位点和ncRNA也不可或缺。以下将介绍DNA、ncRNA、基因、疾病和精准医疗之间的关系。

庞大的非编码RNA家族

核糖核酸（RNA）产物的集合体统称为转录体（transcriptome）。RNA产物的种类繁多（见33页上方图示），一般可粗分成：编码RNA与非编码RNA。编码RNA也称为信使RNA（mRNA），会转译成蛋白质执行生物所需的功能；反之，ncRNA则不会（虽然极少数ncRNA在特殊情况下，也可能会转译成小片段有功能的蛋白质）。常见的「基因」指的是可转录出mRNA的遗传序列，但广泛的定义里也包含ncRNA，为了不造成混淆，本文中基因指的是mRNA。

ncRNA可细分多种，通常依序列长度是否达200个核苷酸为界概分成：短链ncRNA与长链非编码RNA（lncRNA）。前者包括：微RNA（micro RNA, miRNA）、转移RNA（transfer RNA, tRNA）、核糖体RNA （ribosomal RNA, rRNA）、小干扰RNA （small interfering RNA, siRNA）、PIWI－交互作用RNA（Piwi-interaction RNA, piRNA）和小核RNA等。后者包括：不和基因重叠的长链ncRNA （long intergenic ncRNA, lincRNA）、与基因相似却无法转录或转译的假基因（pseudogene）、能和mRNA序列互补的反义RNA （antisense RNA, asRNA）、分子间剪接RNA （trans-spliced RNA, ts-RNA ），以及由反式剪接（back-splicing）形成的环状RNA （circular RNA, circRNA）等。

RNA产物的分类：此为示意图，光是ncRNA就种类繁多。图／科学人杂志提供

由上图可看出，RNA家族浩繁，在此特别强调，序列长度的分界只是粗略的分类，也有某些lncRNA可能小于200个核苷酸。

ncRNA和基因的关系

虽然定义上的ncRNA不会转译成蛋白质，无法直接执行生物所需的功能，但越来越多ncRNA被证实，能借由和各式各样的生物分子（可以是DNA、RNA或蛋白质）产生交互作用而调控目标基因的表现量，进而影响目标基因的功能。ncRNA调控基因的形式非常复杂且多样，有兴趣的读者可进一步阅读相关回顾性论文。在此仅依据ncRNA和其调控的目标基因在基因体序列的距离，极为简略地把调控基因的型式分成两类：近端调控与远端调控（见34页图）。

近端调控顾名思义，就是调控的ncRNA坐落在目标基因附近（通常在转录起始点5'端上游)，借由和某些生物分子交互作用而调控此目标基因的mRNA表现量。远端调控则是ncRNA和目标基因二者坐落在基因体序列上的距离很远，甚至在不同染色体上。在此举三个例子，第一个例子是lncRNA先调控某特定的转录因子（一种蛋白质），影响该转录因子原本调控的基因。第二个例子是miRNA利用其RNA序列的互补性，结合目标基因的mRNA，抑制其转译功能并进而降解，达到调节该目标基因的表现量。第三个例子是不同的ncRNA间相互调控，再影响其下游的基因表现量，例如有的lncRNA会和miRNA结合产生海绵效应（miRNA sponge），把miRNA吸住以影响miRNA的作用。最后影响原本miRNA所调控的基因。

在此特别介绍lncRNA中的circRNA，有别于其他类型的RNA属于线性RNA，circRNA因其环状的架构，比其他RNA稳定不易被降解。因此，一旦circRNA和miRNA交互作用产生海绵效应，影响该miRNA原本调控的基因的效应会更持久。我们可以想像circRNA、miRNA、mRNA之间，可以形成相当复杂且精巧的上下游调控关系。

各有巧妙：ncRNA的近端调控，lncRNA位于目标基因的上游附近，透过和生物分子交互作用来调控mRNA的表现量。远端调控的（例一）中，lncRNA先和某转录因子交互作用，来调控该转录因子原本调控的mRNA；（例二）则是miRNA利用RNA序列的互补性结合mRNA，而造成mRNA降解；在（例三）中，miRNA是吸附在环状RNA上（海绵效应）。进而影响miRNA原本调控的mRNA。

DNA、ncRNA、基因和性状间的关系

近年的大型全基因体关联分析研究（genome-wide association studies, GWAS）突飞猛进，搭配临床医疗等资料大数据分析，可望在DNA序列上找到与疾病预防、进程及治疗相关的基因变异位点。

强强联手：GWAS 分析可研究DNA变异位点与性状或疾病的关联（上图）。这里以自闭症和某DNA变异位点（基因型A/G）为例，若自闭症患者都是A、健康者都是G，则此位点可做为自闭症生物标志（此为示意图，实际上疾病标志不会如此明显）。eQTL 分析则研究DNA变异位点与基因或ncRNA表现的关联（下图），亦即某DNA变异位点调控基因表现量，此图中的三种基因型（AA、AG、GG）与基因表现量呈显著正相关。

以自闭症的GWAS研究为例（见上图），研究单位搜集有病症和无病症个体的血液样本（样本数皆达万人以上）进行基因型鉴定（genotyping）或NGS基因体定序，找出基因变异位点，然后利用统计模组分析，筛出和自闭症有显著相关的基因变异位点(GWAS变异位点)，这些位点便被视为反应自闭症状态的指标。如果这些GWAS变异位点坐落在已知的基因或ncRNA的范围内，便能直接影响该基因、ncRNA的功能和调控效应，该基因或ncRNA即为造成自闭症的高风险标的，科学家可对此进一步探讨疾病机制。

但筛出的GWAS变异位点，很多不是坐落在已知的基因或ncRNA所在的范围内。因此，想要了解GWAS变异位点如何影响该疾病的机制，比设想的更复杂。可能的方式是，除了对个体的血液样本进行DNA变异位点分析外，也对个体的组织样本（以自闭症研究为例，是个体过世后的脑组织）抽取RNA进行NGS定序，再利用统计模组分析，筛出和基因或ncRNA的表现量高度相关的DNA变异位点，从而找到该变异位点所调控的下游基因或ncRNA。这样的变异位点称为表现数量性状基因座（expression quantitative trait loci, eQTL）分析（见35页下图）。

eQTL可能距离所调控的基因或ncRNA很近（cis效应），也很可能很远（trans效应）。一般来说，cis效应会比trans效应强。可想而知，eQTL研究除了需要DNA定序资料外，还要来自同一个体中组织样本的RNA资料，样本收集的困难度大。

总结一下，GWAS分析DNA变异位点和性状（或疾病）间的关系，eQTL分析DNA变异位点和表现型（例如基因或ncRNA表现量）的关系。进一步把二者的分析整合，即为全转录体关联分析研究（transcriptome-wide association study, TWAS）。如此，借由GWAS变异位点定义显著和性状（或疾病）相关的基因。

如前面所述，ncRNA与基因间亦存在各种形式的交互作用，想要了解造成某个性状（或疾病）的分子机制，就需要去厘清DNA变异位点、ncRNA、基因、性状（或疾病）间调控的因果关系。这种推论各种因子和某性状（或疾病）调控因果关系的研究称为因果生物学。过去，这样的研究主要面临三个挑战：（1）缺乏同时具备同一个体的多体学资料（multi-omics data），如基因组和转录体定序等不同型态的资料；（2）因需同时具多种型态的资料，样本数大小受限，容易产生统计偏差，评估的显著性亦受限；（3）仅能评估各因子间的关系，难以推论因果。

前面的两个挑战的主要原因，是样本来源与定序成本。随着NGS技术进步，定序错误率降低、定序深度提高以及价格降低，针对大样本数中的每一个体同时做多体学定序越来越可行。至于第三个挑战，在于不同变数中，潜藏许多不易估计的干扰因子，容易造成评估失准。不过同样地，当样本数越大，更有机会借由统计模组将潜在的干扰因子控制住，得到较可靠的因果推论。

NGS多体学资料和精准医疗

即使同一物种，不同个体间仍存在某种程度的基因组差异性，这种差异可能牵一发而动全身，造成ncRNA基因间的调控关系发生变化，影响个体间的性状、对疾病的反应（表现出来的症状），以及对药物施用后的疗效不同。以癌症为例，个体间的差异，有可能对于癌症患者有不同的预后与风险性，例如不同的复发时间、整体存活期、抗药性等。因此，对于初次被诊断罹癌的病人，如果能预先评估其预后与风险性，便能协助医师订定治疗策略，这就是精准医疗的精神。

因此，许多科学家尝试建立预估癌症风险性的预测器。这里我们以建立癌症复发预测器为例，大略流程如下：首先需要一个训练组（training set），这个训练组需包括够大的样本数，每位病患的生理资料（包含：年龄、性别、人种等）、NGS多体学资料（例如DNA变异位点、ncRNA表现量、基因表现量）、以及预后情况（在此为复发时间，time to relapse）（见下图）。

精准预测：利用NGS多体学资料，可预测癌症复发。本例假设初始特征数目为5 万，最后可筛选出和癌症复发高度相关的10个特征。合格的预后模组必须在训练组与测试组中都能准确预估复发时间。每位首次诊断出罹癌的病患，在预测器输入10个特征，便可得到复发风险系数与可能复发时间。其中预测正确率（AUC）等于1，代表100% 正确。

这些生理资料和NGS多体学资料便是所谓的「特征」，我们可以设计统计模组或者加上机器学习技术，从几万笔的样本资料中，找出和病患预后情况，最显著相关的特征。上图的例子就是经过训练找到一组具有十个特征的复发预测器，为了测试该预测器的正确性，会需要一组或多组兼具上述资料的病患样本当测试组（testing set）。如果该预测器在训练组和测试组「都」具有高正确率（超过70%，或者至少60%），该预测器的效能便可视为具稳健性（robustness）。

最后当初次被诊断罹癌的病人，只要将该病患这十个特征值输入预测器，便可以预估其复发的风险系数以及可能的复发时间。当然，这个预测器的正确性会和训练组的样本大小、用以训练的特征种类与特征个数、筛选显著特征的逻辑或演算法等相关。而实务上，由于个体间以及样本来源（样本取得／处理方式、定序策略等）差异，预测器要在不同测试组间都具高正确率是很困难的。特别强调，不同人种训练出来的预测器差异可能很大，同一个预测器可能不适用于预测不同人种。这也是现在各国成立各自生物样本库的原因。

精准医疗势在必行

生物体内如何执行功能，牵涉到极为精密而错综复杂的调控网路，基因表现量受到DNA、RNA等许多层面上的因子所调控，基因和基因间往往也互相调控。网路中的任何环节，无论先天个体间差异或后天发生变化，都可能造成不一样的性状。借由NGS多体学资料，设计大数据分析流程，建立预测模组，成为精准医疗未来的必然趋势。

DNA序列的集合体统称为基因组，而人类的基因组总长约有3 × 109个核苷酸（nucleotide）。第一个令人好奇的问题是，人类有多少个基因（gene）？在第一套人类全基因定序完成前，答案一直众说纷纭。目前普遍认为，人类约有2万1000个可以转译成蛋白质的基因。紧接着另一个问题是，人类的基因组如此庞大，可编码为蛋白质的区域居然只占2%，那其他部份是做什么呢？

科學人／並非毫無用處！一文看次世代定序如何做到疾病預防與治療

相关资讯