文/陈根
人类的基因组是一本书写生命的“天书”。每个物种都有自己的基因组,负责指示细胞什么时候、通过什么方式构建这个物种的个体生命蓝图。
对于人类来说,完整的基因组图谱将有助于更好理解人作为一个有机体是如何形成的,一个有机体和其他人、其他物种之间又有哪些不同,为什么会有这些不同。近日,随着两篇最新研究论文在顶尖学术期刊《自然》正式上线,人类Y染色体的完整序列终于展现在世人面前。
值得一提的是,Y染色体是人类的性别决定染色体之一,也是人类46条染色体中最后一条完全解码的染色体。那么,人类Y染色体完整序列的解码,给我们带来了什么信息?基于人类基因组的完整序列,对我们来说,又意味着什么?
被遗漏的Y染色体
人类对于自身基因组的解码从21世纪初就已经开始。2001年,人类启动了解码人类基因组的计划,成为医学和遗传学的里程碑。两年后,2003年,人类基因组计划基本完成。自此之后,我们迈入了基因组学的时代。
不过,当时,受到技术的限制,最后得出的基因组图谱并不算完美。在“人类基因组计划”中,科学家们采用了一种称为“Shotgun测序”的方法来获得基因组片段的序列信息。这个方法类似于将整个基因组随机地切成许多小片段,然后对这些片段进行测序,最后再通过计算机算法将它们拼接起来。
但众所周知,人类的基因组非常庞大,这种方法在切割和测序的过程中会导致许多重复的片段,特别是在重复序列丰富的区域,比如着丝粒和核糖体DNA。这些重复片段的存在使得科学家们很难确定这些片段的准确顺序和位置。就像在一副拼图中,有许多相同的拼图碎片,无法确定它们的正确位置。
在初次草图中,基因组被分割成了大约1246个重叠群,这意味着这么多的基因组片段无法在组装时被正确地连接在一起。
由于科学家们难以区分相似的片段,也无法确定它们之间的精确关系,因此在基因组图谱上留下了许多未知的区域。对此,科学家们只能使用一些额外的信息和技术来进行验证和修复。比如使用其他测序方法来填补信息缺失的片段,或者依靠已知的基因和序列信息来指导组装过程。这也是过去20多年里,科学家不懈努力的重点之一。
事实上,想要“从头到尾”地对基因组进行测序本身就是件非常具有挑战的任务,因为基因组中存在大量重复序列。人类所拥有的约2万个基因,只占了整个基因组的2%,剩下的98%基本上都是由这些重复序列家族组成的。
2022年3月末,《科学》杂志上刊登了6篇论文,介绍了由一个名为“端粒到端粒(T2T)联盟”的科学家团队通过使用新的测序技术,破解了人类基因组中此前无法破译的区域,产生了当时最完整的参考基因组。
2022年解码的基因组不仅纠正了之前的参考序列,还增加了五个完整的染色体臂和更多的额外序列,覆盖了基因组中一些最复杂的区域。比如染色体末端的端粒和在细胞分裂过程中协调同源染色体或姐妹染色单体分离的着丝粒。新序列还揭示了以前未检测到的片段重复(在基因组中重复的长段DNA),这些重复片段可在进化和疾病中发挥重要作用。
在这项成果中,科学家们成功地在人类基因组中增加了大约2亿个碱基,解码了从1号到22号染色体上的大部分空缺,而唯一被遗漏的,是人类所有染色体中最小的一条——Y染色体。
揭开人类基因组的最后谜团
2022年之后,Y染色体就成为了人类基因组的最后谜团。
Y染色体之所以会成为人类基因组的最后谜团,与其重复结构的异常复杂有关。Y染色体作为人类基因组中的一个特殊染色体,仅在男性中存在,负责决定男性的生殖特征。然而,Y染色体与其他染色体不同,它的重复序列异常复杂。
所有染色体都有一些重复序列,但在Y染色体中,重复序列所占的篇幅特别大,将近一半——约3000万个碱基是重复序列,因此要把测序读取到的片段重新拼装起来就特别困难。就像拼纯色图案的拼图一样,由于Y染色体的重复结构,将测序读取的碎片重新拼装起来变得非常复杂。
这种复杂的重复结构使得科学家们在解码Y染色体时面临巨大的挑战。为了解决这一难题,T2T联盟领导的这项新研究应用了前沿的长读取测序技术和新型的计算组装方法,借鉴此前无缝组装人类其他染色体时的成功经验,首次完成了Y染色体的测序和组装。其结果填补了Y染色体长度50%以上的空白,同时纠正了原先人类参考基因组序列中Y染色体上的多个错误。
根据此次获得的完整序列(T2T-Y),人类的Y染色体由62,460,029对碱基组成。科学家们从中新鉴定出了41个过去未知的蛋白编码基因,也揭示了影响生育的重要基因组特征。
例如,Y染色体有一段被称为“无精子症因子区”,包含了与精子生成有关的几个基因。而这段DNA中有一组回文序列。这种回文结构会形成环状结构(DNA loop),有时DNA环被意外切断,造成缺失。而“无精子症因子区”的DNA缺失会破坏精子生成,导致不育。研究人员指出,有了完整的Y染色体序列,现在就可以更精确地分析这类缺失及其对精子生成的影响。
此次研究还重点关注了TSPY(testis-specific protein Y)基因家族,即睾丸特异性蛋白编码基因,新发现的41个基因中有38个属于这一家族。它们的一大特征是串联重复拷贝非常多。研究人员在分析这一区域时发现,不同的个体含有的TSPY拷贝10~40个不等。
与此同时,由杰克逊实验室(JAX)教授和Robert Alvine家族捐赠主席Charles Lee博士领导的团队FACMG也在《自然》杂志上发表了完成43个不相关男性的Y染色体组装的报告,其中近一半来自非洲血统。研究团队一共组装了43条来自不同男性个体的Y染色体,他们来自全球21个不同种群。这些组合提供了人类Y染色体在18.3万年间遗传变异的详细视图,揭示了新的DNA序列、保守区域的特征,并揭示了造成Y染色体复杂结构的分子机制。结果发现,Y染色体不仅结构复杂,还是人类染色体中变化速度最快的染色体。
可以看到,完整的人类Y染色体序列正在为许多新发现打开大门。一直以来,人们都不甚了解Y染色体对男性健康的影响。而基于Y染色体的完整序列,后续将有更多研究可以围绕影响健康的临床相关基因深入探索。
揭示生命的密码
完整基因组序列的揭示对于揭示人类进化、生老病死的意义是巨大的。其关键在于两个部分:端粒和着丝粒。
其中,端粒是位于染色体末端的小帽。这个部分随着人年龄的增长而缩短。已经有研究表明,端粒比正常水平短的人更容易患老年疾病,而且比端粒长的人更早死亡,通过延长端粒来减缓衰老速度是一种可能的方法。
着丝粒位于染色体中间部分。这个区域在细胞分裂过程中扮演了很重要的角色,因为蛋白质就是在这个狭窄部位附着并分裂 DNA,两个新细胞由此共享携带同样遗传密码的DNA——部分癌症、衰老和不孕症患者的基因中可以发现着丝粒出现问题或者错误。
并且,对于癌症来说,追溯基因突变是了解癌细胞诞生的重要途径。毕竟,每种癌症都有数千个突变。如果能够在人体的乳腺、肺部、神经系统等十几个组织器官中鉴定不同的突变特征,就能寻找倒不同癌症类型的患者具有的共性和差异,将常见的突变过程与人群中发生频率较低的罕见突变过程区分开来。
而基因组测序能够让科学家们更近距离地观察到某些癌症的发展可能性,使得探索大多数癌症的突变特征成为可能。尤其是凭借全基因组测序(WGS)方法,可全面探索所有类型的癌症基因改变。
此次人类Y染色体的完整序列的揭示更是让我们对Y染色体有了更多的了解,大大增加了我们对人类DNA的认识,解决了我们尚未发现的关于我们基因组中最小的但又最复杂的染色体的问题。这项研究的完成意味着科学家们可以更详细地研究这些基因的功能和相互作用。这有助于解开一系列关于性别差异、男性生育力以及一些性别相关疾病如何产生的谜团。
此外,Y染色体也扮演着人类进化历史中的一部分。通过研究Y染色体的变异和演化,科学家们能够更好地理解人类族群的历史,包括迁徙和人类群体之间的关系。究其原因,Y染色体的特殊之处在于它在每一代中只由父亲传给儿子,不同于其他染色体在父母间的随机遗传。这使得Y染色体上的基因变异能够被相对稳定地追踪,成为一种有力的工具来研究人类族群的历史。通过比较不同地理区域和族群的Y染色体序列,科学家们可以重建人类的迁徙路径和演化关系。
比如,研究表明,不同地区的男性Y染色体具有特定的遗传标记,这些标记可以追溯到人类古代的迁徙和定居历史。通过分析这些遗传标记的分布,科学家们可以推断出人类祖先从哪里起源,是如何分布到不同地区,甚至可以追踪古代迁徙路线。这些研究揭示了我们的祖先是如何适应不同环境、逐步占领地理区域,并最终形成多样的人类族群的。
可以说 ,包括Y染色体在内的完整的基因测序开创了基因组学的新时代,随着人类基因组逐渐被破译,一张生命之图将被绘就,人们的生活也将发巨大变化。人类对人类本身的了解还将迈上新的台阶,很多疾病的病因将被揭开,治疗方案就能“对因下药”,生活起居、饮食习惯也有可能根据基因情况进行调整。
原文标题:陈根:人类最后一条完全解码的染色体,给我们带来了什么信息?
- 开元体育官方网站