导语
生信界大牛李恒、EvanE.Eichler及分子生物界大牛GeorgeM.Church等人在NatBiotechnol联合发表两篇文章,开发了新的基因组组装方法,用来分型和组装染色体水平的人的基因组。第一篇来自李恒和Church团队单倍型解析或分型的基因组组装可提供基因组及其复杂遗传变异的完整图谱。但是,当前用于分型组装的算法要么无法生成染色体尺度的分型,要么需要谱系信息,这限制了它们的应用。本研究提出了一种称为二倍体组装(DipAsm)的方法,该方法使用HiFi数据和Hi-C数据,可以在1天之内生成染色体规模的分相组装。DipAsm应用于四个公共人类基因组(PGP1,HG,NA和HG),产生了单倍型解析的组装,contigN50高达25Mb,大约90.5%的杂合位点可以分型成功,具有98-99%的准确性,在连续性和定相完整性方面均优于其他方法。研究者证明了染色体规模的分型组装对于发现结构变异(SV)的重要性,包括数千个新的转座子插入,以及高度多态性和医学上重要的区域,例如人白细胞抗原(HLA)和杀伤细胞免疫球蛋白样受体(KIR)区域。DipAsm将促进高质量的精准医学以及个体单倍型变异和种群多样性的研究。Figure1DipAsm算法的流程(1)使用Peregrine将HiFi组装成不分相位的contig;(2)使用HiRise/3D-DNA(3D从头组装)将contig与具有Hi-C数据的scaffold进行排序;(3)将HiFi数据mapping到scaffold上,并使用DeepVariantcall杂合SNP;(4)使用WhatsHap和HapCUT2处理HiFi和Hi-C数据的杂合SNP;(5)使用WhatsHap根据相位分区reads;(6)使用Peregrine将分区的reds组装为分型的contig。第二篇来自EvanE.Eichler等团队Strand-seq是一种利用短reads,单细胞测序方法,可保留每个单个细胞中单个同源物的结构连续性。这是通过使用胸苷类似物选择性标记和去除一条DNA链(新生链,在DNA复制过程中合成)来实现的,该DNA链仅生成DNA模板链的定向测序文库。Strand-seq具有三个重要功能:1)它可以按染色体对reads或contig进行排序;2)它可以定序和定向contig;3)它提供了一个染色体范围内的相位信号,而与物理距离无关。这些功能使Strand-seq成为理想的方法,可与长reads测序数据结合使用,以物理方式进行分型组装二倍体基因组。本项工作展示了如何通过利用Strand-seq的额外能力来将contig分配给染色体以对其进行分型以及如何将这种连接技术与长读测序(连续长读(CLR),高保真(HiFi)或ONT)。本研究为二倍体基因组组装提供了一个重要的参考方法,并演示了?6-Gbp基因组的亲本单倍型的精确组装。Figure2Strand-seq流程文献来源Garg,S.,Fungtammasan,A.,Carroll,A.etal.Chromosome-scale,haplotype-resolvedassemblyofhumangenomes.NatBiotechnol().