最后一块基因“拼图”揭开哪些生命谜团

光山新闻网 采集侠 2023-09-01 09:51:01
浏览

原标题:最后一块基因“拼图”揭开哪些生命谜团

编者按 8月23日,两篇发表在《自然》杂志的论文宣告:科学家组装了人类Y染色体的第一个完整序列,补齐了人类基因组这部“生命天书”。多年以来,“生命天书”初稿被科学家反复打磨、拾遗补阙。等待了20多年后,Y染色体的完整“章节”姗姗来迟。而这还只是一个开始,未来,有关遗传、生育、疾病、进化的诸多密码有望被一一破解。

好消息传来。美国国家人类基因组研究所领导美国约翰斯·霍普金斯大学、加州大学圣克鲁斯分校等多家机构的科学家组装了人类Y染色体的第一个完整序列。这是最后一个被完全测序的人类染色体,新序列填补了Y染色体长度的一半以上的空白。两篇相关论文于8月23日发表在《自然》杂志上。

几十年来,Y染色体作为人类两性染色体之一,由于其结构的复杂性,一直是基因组学界难啃的“硬骨头”。现在,这一难以捉摸的基因组区域已经被完整测序,这意味着,人类泛基因组的最后一块“拼图”被补上了。

这次测序为当前人类参考基因组增加了逾3000万个碱基对,揭示了多个基因家族的完整结构,并确认了41个新的蛋白质编码基因,为研究生殖、进化和人口变化相关的重要问题提供了关键信息。

Y染色体测序困难重重

深圳华大生命科学研究院副院长金鑫在接受科技日报记者采访时说:“人类基因组测序是理解人类疾病、健康和进化的关键。通过将个体基因序列与参考基因组进行比对,科学家可以找到与疾病相关的基因,进而为个体提供更精准的诊断和治疗方案。”

深圳华大生命科学研究院研究员周旸介绍说,完整人类基因组中约有30亿个碱基对,科学家其实很难通过直接测序把序列测通,所以在测序的时候,需要将大片段的DNA进行随机打断再进行测序。对于常染色体是如此,对于X和Y染色体亦然。所以在测序结束后,科学家需要通过对测序数据进行拼接来得到完整真实的基因组序列。

1999年,人类首次成功完成对人体染色体完整基因序列的测定。科学家使用“短读长”测序技术来做到这一点,将DNA切成大约一百个碱基的小片段,然后像拼拼图一样重新组装它们。

2022年,最新版人类参考基因组(T2T-CHM13)问世。该基因组包含22条常染色体和X染色体的无间隙序列,共有30.55亿对碱基,比之前的人类参考基因组(GRCh38)增加了近2亿碱基对的遗传信息,约等于整个基因组8%的序列信息,达到了前所未有的完整程度。然而,人类参考基因组中的Y染色体,仍有约一半序列是缺失的。

Y染色体的测序为什么如此棘手?周旸说:“这些未知区域主要集中在异染色质区域。该区域主要由微卫星序列组成。要通过测序数据确定其序列是一件非常困难的事情。”

微卫星序列通常属于重复序列,是一种在基因组中广泛存在的特殊DNA序列重复单元。金鑫表示,由于Y染色体包含大量重复或“回文”序列,共有多达百万个碱基对。而“短读长”技术无法跨越这么长的重复序列,从而无法确定正确的序列顺序,也就无法绘制出完整序列。

组装测序数据就像尝试阅读一本被切成条状的长书,每一条都是书中的一句话。如果书中的所有句子都是唯一的,那么就更容易确定句子的顺序。但是,如果同一句话重复了数千或数百万次,那么这些句子的原始顺序就没有那么清楚了。Y染色体上约有3000万个碱基字母是重复序列,就好像这本书的一半篇幅都重复着同样的几句话。

技术“组合拳”助力测序

如果把染色体比作一本书,那么被称为“短读长”的DNA测序技术一次只能读取相对较短的序列,但现在,“长读长”DNA测序技术可在不影响准确性的情况下生成更长的DNA序列读数,甚至可一次阅读整个“句子”或“段落”。这样,研究人员能够更准确地判断“句子”“段落”之间的排列顺序,从而更有助于完成完整的测序。

得益于“长读长”DNA测序技术和创新的序列组装方法,科学家们终于实现了对Y染色体的无间隙读取。