陆基础研究大突破 「美国人不再比中国人更了解中国人」

大陆基础研究重大突破,从此美国人不再比中国人更了解中国人。图为「唐尧」课题组高占成团队。(大陆科技日报/受访者提供)

大陆基础研究重大突破,从此美国人不再比中国人更了解中国人。图为「唐尧」课题组康禹团队。(大陆科技日报/受访者提供)

大陆《科技日报》2 日报导,北京大学人民医院教授高占成团队和中国科学院北京基因组研究所(国家生物资讯中心)研究员康禹团队,利用山西省洪洞县民何忠(化名)不到20毫升的血液样本,完成世界首次从端粒到端粒的中国人全基因组,获得包括Y染色体在内的高品质真实人类二倍体、以及完整无间隙的全基因组参考序列(44+XY)。中国工程院院士、哈尔滨医科大学党委书记张学评价,此为中国乃至世界里程碑式的事件成果。

因为这个采样点位于山西省临汾市——几千年前尧帝建立的古唐国遗址附近,研究团队将该参考基因组命名为「唐尧」。

《科技日报》报导,人类基因组图谱早已公布,如今普通人的基因组也很容易被测出来。为何「唐尧」基因组会被评价为里程碑式的事件,这一基础研究领域的突破意味着什么?

1、现有人类参考基因组用于中国人有偏差:这是一项由临床应用需求催生的基础研究。

过去几十年,北京大学人民医院呼吸与危重症医学科主任高占成的主要工作是接诊来自大陆各地的呼吸科疑难杂症患者。他带领团队首次诊断出多例孤儿肺病,如弥漫性肺淋巴管瘤病、肺泡蛋白沉积症等。

诸多案例丰富了他的医学实践,但也给他带来了诊疗困惑。不少疾病综合征在不同种族人群中的临床表现存在不小的差异。

「目前所有的肿瘤、遗传病等测序诊断报告,均根据美国主导的GRCh37/38为人类参考基因组序列来判定正常或变异。」高占成说,GRCh37/38是来自多个人类个体基因组序列嵌合而成的一套基因组,主要来源是非洲和欧洲人。它不但不完整、错误多,而且难以代表中国乃至亚裔族群。

以遗传性肺囊性纤维化为例,这种病在欧美白人中表现为跨膜氯离子转录因数突变导致的功能缺失。但在中国患者中,该转录因数突变的发生率要小得多。

「预测疾病风险和诊疗时,对于亚洲人种而言,仅对照现有参考组,可能会产生较大的偏差。」高占成说,这种偏差还会影响靶向药物的研发。

2003年,国际知名药厂阿斯利康在全球率先研发成功表皮生长因数受体酪氨酸激酶抑制剂(EGFR-TKI)——吉非替尼,适用于存在表皮生长因数受体(EGFR)基因突变的非小细胞肺癌患者。

随后的研究发现,EGFR基因突变存在明显的种族特异性。中国和东亚种族不吸烟肺腺癌患者的突变率明显高于欧美白人患者。

「目前的主流观点认为,不同人种基因组之间的差别只有千分之一。但从临床实践来看,实际差别可能远大于这个数字。」高占成说,「所以,我们有必要构建中国人自己的参考基因组。」但对于一个临床医生来说,这是个全新且较难攻克的课题。

2、为中国人基因组研究提供更准确的座标系:何忠何许人?为什么何忠的基因组就可以称为参考基因组?

康禹说,选择合适的样本是第一步。悠久的历史、多样的地理气候环境,塑造了中华民族独特的遗传多样性。「唐尧」基因组是研究的起点,因此决定从人数最多的汉族开始。

「构建中国人自己的参考基因图谱,目的是为了更好地服务现代医学应用,所以样本需要更好地代表现代中国人的基因组特征。」康禹说,最终他们确定的样本来自一名现在生活在山西省洪洞县一个古老村庄的健康男青年——何忠。

这个地区是明代洪洞移民,即历史上有名的「大槐树」移民的起点。600多年前的这场迁徙持续了近半个世纪,大量移民遍布中国各地,有些进入东南亚。「我们认为何忠的基因组有望成为现代汉族人群的代表。」高占成说。

根据祖源分析,「唐尧」基因组的绝大部分为东亚人群特征。「这个样本的Y染色体的分型在中国除了新疆、西藏等地外都有广泛分布,极具代表性。」康禹说。

「唐尧」 基因组提示了中国人和欧洲人基因组水准的显著差异。对照国际科学团队「端粒到端粒(T2T)」联盟(以下简称「T2T」联盟)于2022年发布的新版本人类参考基因组T2T-CHM13,「唐尧」显示出11%差异序列和5%差异基因。

中国科学院院士陈润生说,「唐尧」弥补了汉族高品质基因组的空白,完整的中国人基因组序列的发布,也将改变以往认为不同人种基因组之间只有千分之一区别的认知。

3、用两年时间完成国际领先的品质标准:配置最先进的测序仪器和最精干的研发人员,「唐尧」专案以最快速度启动。仅用了不到两年时间,2023年8月,项目组获得何忠的完整无间隙高品质基因组序列。

4、避免「西方人比中国人更了解中国人」的尴尬:「这是中华民族群体遗传学研究的一个新起点。」中国科学院北京基因组研究所原副所长于军说,「接下来,我们将推进其他有代表性的个体参考基因组测序,并开展不同民族等群体的测序,最终我们希望能启动全民基因组测序工程。」

专家认为,中国要加快构建中国人自己的基因组研究「座标系」的步伐。

20多年前,在人类基因组计划基础上,美国正式提出全新的大科学计划——精准医学计划。该计划最终目标是测定每一个人的基因组,也称为「全民基因组计划(All of Us研究计划)」。2022年,该计划研究专案公布了第一批近10万人的全基因组测序数据供研究人员使用。数据包括身高、体重和血压等基础资料和调查资料,例如关于参与者的人口统计资料、生活方式和总体健康状况的资料。

高占成说,一旦美国的全民基因组计划完成包括500万美籍华人在内基因组测序,完全有可能形成「别人比我们自己更了解中国人基因组」的局面。

近年来,国际科学家联合成立了人类泛基因组联盟(HPRC),试图建立更精准完整的世界主要人群的参考基因组,了解世界人口的多样性。去年5月,HPRC制作的首个人类泛基因组参考草图在《自然》发布,纳入了全球47个样本,其中包括3例中国南方汉族样本。

张学关注到一个现象:基因组领域最主要的两个国际联盟——国际人类泛基因组联盟、国际T2T基因组联盟,其中的重要成员都是来自欧美的大学和研究所,中国研究机构和实体并不在内。

「这种形势下,建立中国人自有的高品质参考基因组是防止被『卡脖子』的关键一步。」张学说。

「接下来我们将对『唐尧』进行进一步的解析和注释,让它能更好地应用于临床。」康禹说,我们希望基于自己的参考基因组发展出服务华人的靶向测序、基因组分析和诊疗技术,并推动未来的新药研发。

5、亟待构建中国人自己的基因组技术体系:受访专家预计,T2T-CHM13以其完整性和高品质,有望逐渐取代目前正在使用的GRCh38参考基因组。

陈润生和中国检验检疫科学院体外诊断试剂所副所长黄杰均建议,在新旧参考基因组交接之际,中国应建立国家标准,推广使用「唐尧」作为中国人群基因组研究和临床应用中测序和分析的标准物质和参考基因组,不再使用欧洲人的参考基因组来定义中国人的遗传变异。同时,在此基础上建立中国人基因组学知识框架和应用技术体系。

于军等科学家认为,要实现上述目标,中国人类基因组研究亟待进一步加强顶层设计和规划。「由谁来测,给谁用,资料安全如何保障,这些问题都需要系统研究。」