基因组学新纪元:科学家首次完成人类X染色体的完整组装序列
目前的人类参考基因组是迄今为止最准确和最完整的脊椎动物基因组,但即使经过了20年的改进,DNA序列上仍然存在空白。不过,现在科学家们已经首次从一端到另一端(“端粒到端粒”)地确定了一条人类染色体的完整序列,填补了所有空白,而且精确度达到了前所未有的水平。
对基因组学研究者来说,7月14日在《自然》杂志上发表的人类X染色体端粒到端粒完整序列是一个里程碑。该研究的主要作者、加州大学圣克鲁兹基因组学研究所的研究科学家凯伦·米加(Karen Miga)说,这个项目之所以能够完成,是因为新的测序技术使“超长读取(ultra-long reads)”成为可能,比如加州大学圣克鲁兹分校首创的纳米孔测序技术。
重复的DNA序列在整个基因组中很常见,而且总是会给测序带来困难,因为大多数技术只能相对较短地“读序列”,然后再像拼图一样把它们重新拼在一起,组装成完整的基因组。而重复序列会产生许多看起来几乎一模一样的短序列,就像拼图里面的那种大片蓝天,不知道这些片段要怎样组合在一起的,也不知道有多少重复的片段。
Miga说:“这些多次重复的序列曾经被认为是难以处理的,但现在我们已经在测序技术上取得了飞跃。通过纳米孔测序,我们获得了能够跨越整个重复区域的数十万碱基对的超长读数,从而绕过了一些挑战。”
填补人类基因组序列中的剩余空白开辟了基因组的新区域,研究人员可以在这些新区域中寻找序列变异与疾病之间的关联,并为有关人类生物学和进化的重要问题寻找其他线索。
Miga说:“我们开始发现,此前在参考序列中存在空白的一些区域实际上是人类变异最丰富的区域之一,因此我们一直缺失了许多可能对理解人类生物学和疾病很重要的信息。”
Miga和国家人类基因组研究所(NHGRI)的Adam Phillippy是这篇新论文的通讯作者,2018年,他们两人在一篇论文中展示了用纳米孔技术产生一个完整人类基因组序列的潜力,这项研究使用了牛津纳米孔技术的MinION测序器,该测序器通过检测单个DNA分子通过薄膜上的小孔(一个“纳米孔”)时电流发生的变化来对DNA进行排序。随后,他们就共同创立了Telomere-to-Telomere (T2T)联盟,旨在追求一个完整的基因组。
这个新项目就是建立在上述的基础上,新项目将纳米孔测序技术与PacBio和Illumina公司的其他测序技术,以及BioNano基因组公司的光学图谱结合在了一起。利用这些技术,该团队制作出了一个完整的基因组组合,在连续性、完整性和准确性方面超过了之前所有的人类基因组组合,甚至在某些指标上超过了当前的人类参考基因组。
尽管如此,Miga表示,序列中仍然有多个中断。为了完成X染色体,研究小组必须手动解决序列中的几个缺口。研究小组用超长纳米孔技术解决了两个重复片段,他们完全跨越了重复片段,并且两边锚定在独特的片段。剩余的中断在着丝点,这是一个众所周知的困难区域,在每个染色体中都可以发现重复的DNA。
在X染色体上,着丝点包含一个高度重复的DNA区域,该区域跨越310万个碱基对(碱基A、C、T和G在DNA双螺旋中形成对,并在其序列中编码遗传信息)。该团队在重复序列中识别出变异并以它们作为标记,用这些标记来排列长片段,把它们连接在一起,从而横跨整个着丝粒。
Miga说:“对于我来说,我们可以组装一个3个巨碱基大小的串联反复这个想法是非常令人兴奋的。现在,在覆盖了数以百万计的碱基之后,我们可以对这些重复区域的进行研究了,人们以前认为这是非常棘手的。”
下一步是进行完善,利用多重测序技术的数据来确保序列中每个碱基的准确性。
Miga解释说:“为了完善序列,我们在三个不同的测序平台上使用了一种迭代过程,以达到高度准确性。独特的标记为超长序列读取提供了一个锚定系统,一旦锚定读取,就可以使用多个数据集来调用每个基。
纳米孔测序除了提供超长序列读取外,还可以检测被甲基化修饰的碱基。甲基化是一种“表观”变化,不会改变序列,但对DNA结构和基因表达有重要影响。通过在X染色体上绘制甲基化模式,该团队能够确认之前的观察,并揭示着丝粒内甲基化模式的一些有趣趋势。
新的人类基因组序列来自一种名为CHM13的人类细胞系,填补了目前被称为基因组参考联盟构建38 (Genome Reference Consortium build 38, GRCh38)的参考基因组的许多空白。
为了完成所有CHM13染色体序列,T2T联盟正在继续进行研究。Miga说:“这是一个开放的联盟,因此在许多方面,这是一个由社区推动的项目,许多人为此投入了时间和资源。”
【翻译/前瞻经济学人APP资讯组】
参考资料:l
本文来自: 前瞻网