建立中国人自己的基因组技术体系路有多远(2)
“我当然很高兴能参与这项工作。”康禹说,“我们判断,现在的技术发展是构建中国人参考基因组的最佳时机,可以让我们以较少花费、较短时间完成这件事情。”
为中国人基因组研究提供更准确的坐标系
何忠何许人?为什么何忠的基因组就可以称为参考基因组?
康禹说,选择合适的样本是第一步。悠久的历史、多样的地理气候环境,塑造了中华民族独特的遗传多样性。“‘唐尧’基因组是研究的起点,我们决定从人数最多的汉族开始。”康禹说。
“构建中国人自己的参考基因图谱,目的是为了更好地服务现代医学应用,所以样本需要更好地代表现代中国人的基因组特征。”康禹说,最终他们确定的样本来自一名现在生活在山西省洪洞县一个古老村庄的健康男青年——何忠。
这个地区是明代洪洞移民,即历史上有名的“大槐树”移民的起点。600多年前的这场迁徙持续了近半个世纪,大量移民遍布中国各地,有些进入东南亚。“我们认为何忠的基因组有望成为现代汉族人群的代表。”高占成说。
根据祖源分析,“唐尧”基因组的绝大部分为东亚人群特征。“这个样本的Y染色体的分型在中国除了新疆、西藏等地外都有广泛分布,极具代表性。”康禹说。
“唐尧” 基因组提示了中国人和欧洲人基因组水平的显著差异。对照国际科学团队“端粒到端粒(T2T)”联盟(以下简称“T2T”联盟)于2022年发布的新版本人类参考基因组 T2T-CHM13,“唐尧”显示出11%差异序列和5%差异基因。
中国科学院院士陈润生说,“唐尧”弥补了汉族高质量基因组的空白,完整的中国人基因组序列的发布,也将改变以往认为不同人种基因组之间只有千分之一区别的认知。
张学认为,“唐尧”基因组将为汉族中国人基因组研究提供更准确的定位基因和变异的坐标系,同时解决欧洲血源参考基因组不适于中国人基因组研究的技术障碍。这将为我国医学基因组研究,包括遗传病诊断、常见病风险预测、肿瘤基因组变异、药物基因组学等领域,建立技术体系和质量基准。
中国工程院院士程京认为,“唐尧”基因组测序分析工作不仅具有非常重要的跨学科、跨领域的基础研究意义和应用价值,而且从DNA水平上回答了“何以中国人”这个重要的社会科学问题,将帮助我们回答中国人起源、迁徙、历史沿革和交流等问题。
用两年时间完成国际领先的质量标准
配置最先进的测序仪器和最精干的研发人员,“唐尧”项目以最快速度启动。仅用了不到两年时间,2023年8月,项目组获得何忠的完整无间隙高质量基因组序列。
结果超出课题组的预期。
经国际通用的评估基因组质量的重要工具Merqury评估,“唐尧”的质量值达到了参考基因组的质量标准,质量值为Q74.69,而T2T-CHM13的质量值为Q73.94。
“这个数字说明我们的参考基因组的错误更少,拼接质量高于T2T-CHM13。”康禹说。
将时间指针拨回到30多年前。1990年,在生命科学领域被誉为“登月计划”的人类基因组计划启动。11年后,该计划发布了人类基因组工作草图。又过了两年,研究人员公布了当时被称为人类基因组“完成图”。
此后数年,研究团队不断完善人类基因组空白区,但仍有约8%的序列缺失。