目前蝾螈基因组组装工作的重大突破表明超大基因组组装的难点已被新平台和新技术攻克,后续将有更多受限于以往技术瓶颈而无法有效组装的基因组报道出来。尽管越来越多的高难度基因组完成了组装,但染色体水平的基因组构建仍是一个充满挑战的领域。
首先染色体水平的基因组序列非常有价值,对于大型基因组,一个非常有意义的话题就是基因组和染色体是怎样伴随着物种进化而发展的,如果没有染色体水平的序列,那就只能管中窥豹。像榴莲基因组的报道中(Thedraftgenomeoftropicalfruitdurian),就通过染色体的构建及与可可的染色体序列进行的共线性分析,解释了榴莲是否三倍化及榴莲染色体进化的问题。
图1可可的每个染色体对应榴莲的多个染色体,暗示榴莲30条染色体并非基因组加倍而来
除了解释染色体进化以外,在应用层面上染色体水平的基因组也具备了更高的实用价值,后续的比较基因组学及重测序、三维基因组研究工作,都需要高水平的染色体水平的基因组。
过往最常见的构建染色体序列的方法是使用遗传图谱,对于大型基因组来说,这种方法存在多个瓶颈:
1无法构建足够大的高质量作图群体对于部分作物植物来说,还有构建作图群体的可能,但像蝾螈类似的物种就暂时不具备可行性。
图2蝾螈基因组组装统计表,共计条scaffolds
2遗传图谱没有足够的标记数支持染色体的构建这点也是最关键的,大型基因组组装难度大,一般contig/scaffoldN90长度较短,数目较多。像蝾螈基因组就是由12.57万个scaffolds组成(图2),如果要把它们都挂载回染色体并确认位置与方向的话,理论上至少需25万个有效分子标记,且有效的标记数受群体大小和类型制约,因此标记数是存在上限的(因为一个指定的群体,重组发生的次数有限)。
下图展示了对于F2和回交群体,群体大小与最小图距的关系(《分子植物育种》)。事实上大部分高密度遗传图谱也仅能提供数千个标记,远远达不到构建染色体的要求。
图3遗传图谱可检测的最大图距和可分辨的最小图距
3大型基因组的遗传图谱质量比较有限由于大型基因组往往高重复,多倍体或发生过多倍化事件,基因分型的准确度有限,而且图谱构建软件也往往基于二倍体物种的模型,图谱的质量比较难于保证。
而最近更为火热的Hi-C技术则很好的规避上述问题,它不需要构建遗传图谱,没有重组数与标记数的制约,即便是超碎片段化的基因组,也仍然有大量的片段可以挂载回染色体。在我们以往项目经验中,某基因组序列scaffoldN50仅61Kb,scaffoldN90仅bp,使用Hi-C技术仍然完成了60%的序列,共计两千多个scaffold的挂载,而同等挂载率使用遗传图谱则非常难达到。
同时Hi-C也不需要进行精确的基因分型,受高重复、多倍体影响相对较小,大型的基因组上也可以达到非常理想的挂载效果。安诺优达作为领先的Hi-C辅助基因组产品的提供者,在这一领域也取得了非常成功的经验。下图是一个基因组大小也达到了两位数的基因组(单位Gb),挂载率达到了90%以上,可以说远超其它技术所能达到指标。
图4某超大基因组物种Hi-C辅助组装结果互作热图展示
除在Hi-C辅助基因组领域以外,安诺优达不仅已完成了文章报道中的MARVEL软件的测试,还开发了一套整合FALCON、CANU、MeCat等软件进行整合组装的流程,同时依托于安诺云平台可快速完成高难度基因组组装,1G高杂合基因组也可达到contig5Mb左右的水平,结合Bionano的opitcalmapping技术及安诺独具优势的Hi-C辅助基因组技术,可以达到优秀的大型基因组染色体水平序列的组装。
参考文献:
TehBT,LimK,YongCH,etal.Thedraftgenomeoftropicalfruitdurian(Duriozibethinus)[J].NatureGenetics,,49(11).
Breeding,MolecularPlant."徐云碧著,陈建国,华金平,闫双勇,等,译."分子植物育种().
NowoshilowS,SchloissnigS,FeiJF,etal.Theaxolotlgenomeandtheevolutionofkeytissueformationregulators[J].Nature,.
文案:生物信息分析部
设计:胡珊珊
预览时标签不可点收录于话题#个上一篇下一篇