科學人/並非毫無用處!一文看次世代定序如何做到疾病預防與治療
行动基因生技股份有限公司NGS检测过程。联合报系资料照/记者曾原信摄影
随着次世代定序(next generation sequencing, NGS)技术的发展,越来越多的研究证实,基因组中占98%的非编码区域,也有许多部份都扮演重要的基因调控角色,它们也如编码区会受到相当程度的演化压力,且具有高度的序列保守性,并非无用的垃圾。非编码区域坐落着种类繁多且数量庞大的非编码RNA (non-coding RNA, ncRNA)。由于强调个体差异的「精准医疗」(precision medicine)时代来临,在研拟治疗策略,考量个体间的特征差异除了基因,还有非编码区域位点和ncRNA也不可或缺。以下将介绍DNA、ncRNA、基因、疾病和精准医疗之间的关系。
庞大的非编码RNA家族
核糖核酸(RNA)产物的集合体统称为转录体(transcriptome)。RNA产物的种类繁多(见33页上方图示),一般可粗分成:编码RNA与非编码RNA。编码RNA也称为信使RNA(mRNA),会转译成蛋白质执行生物所需的功能;反之,ncRNA则不会(虽然极少数ncRNA在特殊情况下,也可能会转译成小片段有功能的蛋白质)。常见的「基因」指的是可转录出mRNA的遗传序列,但广泛的定义里也包含ncRNA,为了不造成混淆,本文中基因指的是mRNA。
ncRNA可细分多种,通常依序列长度是否达200个核苷酸为界概分成:短链ncRNA与长链非编码RNA(lncRNA)。前者包括:微RNA(micro RNA, miRNA)、转移RNA(transfer RNA, tRNA)、核糖体RNA (ribosomal RNA, rRNA)、小干扰RNA (small interfering RNA, siRNA)、PIWI-交互作用RNA(Piwi-interaction RNA, piRNA)和小核RNA等。后者包括:不和基因重叠的长链ncRNA (long intergenic ncRNA, lincRNA)、与基因相似却无法转录或转译的假基因(pseudogene)、能和mRNA序列互补的反义RNA (antisense RNA, asRNA)、分子间剪接RNA (trans-spliced RNA, ts-RNA ),以及由反式剪接(back-splicing)形成的环状RNA (circular RNA, circRNA)等。
RNA产物的分类:此为示意图,光是ncRNA就种类繁多。图/科学人杂志提供
由上图可看出,RNA家族浩繁,在此特别强调,序列长度的分界只是粗略的分类,也有某些lncRNA可能小于200个核苷酸。
ncRNA和基因的关系
虽然定义上的ncRNA不会转译成蛋白质,无法直接执行生物所需的功能,但越来越多ncRNA被证实,能借由和各式各样的生物分子(可以是DNA、RNA或蛋白质)产生交互作用而调控目标基因的表现量,进而影响目标基因的功能。ncRNA调控基因的形式非常复杂且多样,有兴趣的读者可进一步阅读相关回顾性论文。在此仅依据ncRNA和其调控的目标基因在基因体序列的距离,极为简略地把调控基因的型式分成两类:近端调控与远端调控(见34页图)。
近端调控顾名思义,就是调控的ncRNA坐落在目标基因附近(通常在转录起始点5'端上游),借由和某些生物分子交互作用而调控此目标基因的mRNA表现量。远端调控则是ncRNA和目标基因二者坐落在基因体序列上的距离很远,甚至在不同染色体上。在此举三个例子,第一个例子是lncRNA先调控某特定的转录因子(一种蛋白质),影响该转录因子原本调控的基因。第二个例子是miRNA利用其RNA序列的互补性,结合目标基因的mRNA,抑制其转译功能并进而降解,达到调节该目标基因的表现量。第三个例子是不同的ncRNA间相互调控,再影响其下游的基因表现量,例如有的lncRNA会和miRNA结合产生海绵效应(miRNA sponge),把miRNA吸住以影响miRNA的作用。最后影响原本miRNA所调控的基因。
在此特别介绍lncRNA中的circRNA,有别于其他类型的RNA属于线性RNA,circRNA因其环状的架构,比其他RNA稳定不易被降解。因此,一旦circRNA和miRNA交互作用产生海绵效应,影响该miRNA原本调控的基因的效应会更持久。我们可以想像circRNA、miRNA、mRNA之间,可以形成相当复杂且精巧的上下游调控关系。
各有巧妙:ncRNA的近端调控,lncRNA位于目标基因的上游附近,透过和生物分子交互作用来调控mRNA的表现量。远端调控的(例一)中,lncRNA先和某转录因子交互作用,来调控该转录因子原本调控的mRNA;(例二)则是miRNA利用RNA序列的互补性结合mRNA,而造成mRNA降解;在(例三)中,miRNA是吸附在环状RNA上(海绵效应)。进而影响miRNA原本调控的mRNA。
DNA、ncRNA、基因和性状间的关系
近年的大型全基因体关联分析研究(genome-wide association studies, GWAS)突飞猛进,搭配临床医疗等资料大数据分析,可望在DNA序列上找到与疾病预防、进程及治疗相关的基因变异位点。
强强联手:GWAS 分析可研究DNA变异位点与性状或疾病的关联(上图)。这里以自闭症和某DNA变异位点(基因型A/G)为例,若自闭症患者都是A、健康者都是G,则此位点可做为自闭症生物标志(此为示意图,实际上疾病标志不会如此明显)。eQTL 分析则研究DNA变异位点与基因或ncRNA表现的关联(下图),亦即某DNA变异位点调控基因表现量,此图中的三种基因型(AA、AG、GG)与基因表现量呈显著正相关。
以自闭症的GWAS研究为例(见上图),研究单位搜集有病症和无病症个体的血液样本(样本数皆达万人以上)进行基因型鉴定(genotyping)或NGS基因体定序,找出基因变异位点,然后利用统计模组分析,筛出和自闭症有显著相关的基因变异位点(GWAS变异位点),这些位点便被视为反应自闭症状态的指标。如果这些GWAS变异位点坐落在已知的基因或ncRNA的范围内,便能直接影响该基因、ncRNA的功能和调控效应,该基因或ncRNA即为造成自闭症的高风险标的,科学家可对此进一步探讨疾病机制。
但筛出的GWAS变异位点,很多不是坐落在已知的基因或ncRNA所在的范围内。因此,想要了解GWAS变异位点如何影响该疾病的机制,比设想的更复杂。可能的方式是,除了对个体的血液样本进行DNA变异位点分析外,也对个体的组织样本(以自闭症研究为例,是个体过世后的脑组织)抽取RNA进行NGS定序,再利用统计模组分析,筛出和基因或ncRNA的表现量高度相关的DNA变异位点,从而找到该变异位点所调控的下游基因或ncRNA。这样的变异位点称为表现数量性状基因座(expression quantitative trait loci, eQTL)分析(见35页下图)。
eQTL可能距离所调控的基因或ncRNA很近(cis效应),也很可能很远(trans效应)。一般来说,cis效应会比trans效应强。可想而知,eQTL研究除了需要DNA定序资料外,还要来自同一个体中组织样本的RNA资料,样本收集的困难度大。
总结一下,GWAS分析DNA变异位点和性状(或疾病)间的关系,eQTL分析DNA变异位点和表现型(例如基因或ncRNA表现量)的关系。进一步把二者的分析整合,即为全转录体关联分析研究(transcriptome-wide association study, TWAS)。如此,借由GWAS变异位点定义显著和性状(或疾病)相关的基因。
如前面所述,ncRNA与基因间亦存在各种形式的交互作用,想要了解造成某个性状(或疾病)的分子机制,就需要去厘清DNA变异位点、ncRNA、基因、性状(或疾病)间调控的因果关系。这种推论各种因子和某性状(或疾病)调控因果关系的研究称为因果生物学。过去,这样的研究主要面临三个挑战:(1)缺乏同时具备同一个体的多体学资料(multi-omics data),如基因组和转录体定序等不同型态的资料;(2)因需同时具多种型态的资料,样本数大小受限,容易产生统计偏差,评估的显著性亦受限;(3)仅能评估各因子间的关系,难以推论因果。
前面的两个挑战的主要原因,是样本来源与定序成本。随着NGS技术进步,定序错误率降低、定序深度提高以及价格降低,针对大样本数中的每一个体同时做多体学定序越来越可行。至于第三个挑战,在于不同变数中,潜藏许多不易估计的干扰因子,容易造成评估失准。不过同样地,当样本数越大,更有机会借由统计模组将潜在的干扰因子控制住,得到较可靠的因果推论。
NGS多体学资料和精准医疗
即使同一物种,不同个体间仍存在某种程度的基因组差异性,这种差异可能牵一发而动全身,造成ncRNA基因间的调控关系发生变化,影响个体间的性状、对疾病的反应(表现出来的症状),以及对药物施用后的疗效不同。以癌症为例,个体间的差异,有可能对于癌症患者有不同的预后与风险性,例如不同的复发时间、整体存活期、抗药性等。因此,对于初次被诊断罹癌的病人,如果能预先评估其预后与风险性,便能协助医师订定治疗策略,这就是精准医疗的精神。
因此,许多科学家尝试建立预估癌症风险性的预测器。这里我们以建立癌症复发预测器为例,大略流程如下:首先需要一个训练组(training set),这个训练组需包括够大的样本数,每位病患的生理资料(包含:年龄、性别、人种等)、NGS多体学资料(例如DNA变异位点、ncRNA表现量、基因表现量)、以及预后情况(在此为复发时间,time to relapse)(见下图)。
精准预测:利用NGS多体学资料,可预测癌症复发。本例假设初始特征数目为5 万,最后可筛选出和癌症复发高度相关的10个特征。合格的预后模组必须在训练组与测试组中都能准确预估复发时间。每位首次诊断出罹癌的病患,在预测器输入10个特征,便可得到复发风险系数与可能复发时间。其中预测正确率(AUC)等于1,代表100% 正确。
这些生理资料和NGS多体学资料便是所谓的「特征」,我们可以设计统计模组或者加上机器学习技术,从几万笔的样本资料中,找出和病患预后情况,最显著相关的特征。上图的例子就是经过训练找到一组具有十个特征的复发预测器,为了测试该预测器的正确性,会需要一组或多组兼具上述资料的病患样本当测试组(testing set)。如果该预测器在训练组和测试组「都」具有高正确率(超过70%,或者至少60%),该预测器的效能便可视为具稳健性(robustness)。
最后当初次被诊断罹癌的病人,只要将该病患这十个特征值输入预测器,便可以预估其复发的风险系数以及可能的复发时间。当然,这个预测器的正确性会和训练组的样本大小、用以训练的特征种类与特征个数、筛选显著特征的逻辑或演算法等相关。而实务上,由于个体间以及样本来源(样本取得/处理方式、定序策略等)差异,预测器要在不同测试组间都具高正确率是很困难的。特别强调,不同人种训练出来的预测器差异可能很大,同一个预测器可能不适用于预测不同人种。这也是现在各国成立各自生物样本库的原因。
精准医疗势在必行
生物体内如何执行功能,牵涉到极为精密而错综复杂的调控网路,基因表现量受到DNA、RNA等许多层面上的因子所调控,基因和基因间往往也互相调控。网路中的任何环节,无论先天个体间差异或后天发生变化,都可能造成不一样的性状。借由NGS多体学资料,设计大数据分析流程,建立预测模组,成为精准医疗未来的必然趋势。
DNA序列的集合体统称为基因组,而人类的基因组总长约有3 × 109个核苷酸(nucleotide)。第一个令人好奇的问题是,人类有多少个基因(gene)?在第一套人类全基因定序完成前,答案一直众说纷纭。目前普遍认为,人类约有2万1000个可以转译成蛋白质的基因。紧接着另一个问题是,人类的基因组如此庞大,可编码为蛋白质的区域居然只占2%,那其他部份是做什么呢?
延伸阅读
(本文出自2024.07.01《科学人》网站,未经同意禁止转载。)