所谓套路玩的好,省时省心花费少。如果有一个科研方法,能准确、快捷地获得即便是复杂基因组的精细图,您是否考虑将手边正在研究的物种做一下更深层次的基因组挖掘?
组学君在此为大家分享一篇刚出炉的Nature基因组文章——基于PacBio测序组装的染色体级别玉米B73基因组精细图,里面蕴含着一个“浅浅”的套路,适用于大多数物种基因组学研究。
测序策略1.PacBio测序:PacBioRSII,P6C4,个SMRTCells,测序深度65×;
2.利用PacBioreads组装出的2,个contigs,结合BioNano高质量光学图谱得到个Scaffolds,加入已发布的BACsSanger测序数据和SNP遗传图谱数据,将基因组构建到染色体级别,最后利用短读长数据进行校正。
Figure1玉米B73基因组组装流程
Table1玉米B73基因组组装结果
测序组装结果评估PacBioReads平均读长11.7kb,其中10kb以上的reads对基因组的覆盖深度为53×。最后得到的玉米B73基因组版本RefGen_v4,大小为2,Mb,仅存在2,个gaps(Figure2,toprow)。
Figure2玉米B73染色体级别的组装结果评估
第一行橘色和紫色显示2,个gaps
第二行浅灰色代表了1Mb的contigs,组装出的基因组大部分是由1Mb的contigs组成。
本研究中组装出的B73RefGen_v4较完整,准确率高,与前期BAC-basedSanger测序结果相比,序列一致性达到99.9%,平均Contig长度增加52倍,最长的一条Contig甚至覆盖了84%的BACs。
V4参考基因组对中心粒、端粒等复杂区域也有良好的覆盖,通过与着丝粒特异性组蛋白H3(CENH3)ChIP-seq数据比较发现,V4版本的着丝粒定位准确并且绝大部分都是完整的。以第1号染色体长臂和第9号染色体为例,比较V3和V4两者间着丝粒的组装质量,结果显示V4基因组中对着丝粒的定位、覆盖和准确度都有极大的提升(Figure3)。
Figure3以V3与V4两版参考基因组中1号染色体长臂和9号染色体为例,比较两者间着丝粒的组装质量
基因丢失玉米自从与高粱分离后,经历了一次基因组加倍,随后又发生了基因组二倍化及基因丢失。之前有文献报道玉米的基因丢失倾向于发生在其中一个亲本基因组,而本研究结果显示有56%的与高粱直系同源的基因来源于亚基因组A(1.16Gb),24%来源于亚基因组B(0.63Gb)。基因丢失被认为可能是由基因多倍化之后功能冗余引起的,本研究中发现,玉米丢失了高达14%的祖系同源基因功能,与高粱、水稻、二穗短柄草、粟相比,这其中有近1/3是玉米所独有的。
转座元件对玉米和高粱的转座元件家族进行分析,以Figure4中A)Ty3/Gypsy和B)Ty1/Copia为例,玉米(红色)中的转座元件家族比高粱(蓝色)表现出更高的拷贝数。本研究注释了Mb(,个copy)结构完整的逆转录转座子,其中有Mb(70,个copy)被其它转座元件嵌入,如反向重复转座子(8.7Mb,14,个copy),和helitron转座子(76Mb,21,个copy)
Figure4A)Ty3/Gypsy和B)Ty1/Copia转座元件家族分析
红色:玉米,蓝色:高粱
结构变异玉米的表型受核苷酸多态性和结构变异的影响,但是在植物基因组中,很难进行全基因组范围的结构变异研究,因为过去只能依赖于短读长测序,导致大量基因间区间信息丢失,而这正是大多数基因重排发生的区域。为了更好地研究玉米基因组的结构变异,研究人员对玉米的三个品系B73、Ki11和W22进行基因组图谱分析,在比对上的区域中,Ki11有32%、W22有24%表现出明显的结构变异,包括3,个insertion和3,个deletion(Table2和Figure5)。
Table2与B73参考基因组V4相比,Ki11和W22的比对结果及结构变异情况
Figure5玉米Ki11和W号染色体上结构变异情况
本研究提供了一个适用于大多数物种的基因组测序组装策略,利用三代PacBio长读长测序数据,结合其他大片段技术辅助,如BioNano等,可以拼接组装出跨越重复序列、端粒、着丝粒等特殊区域的基因组精细图,同时,得到高质量的参考基因组将会极大的延展研究者对研究对象遗传多样性上的认识。
未来组作为世界领先三代测序基因组中心,已于年搭建了Sequel基因组学中心,拥有Sequel、BioNano及Hi-C等平台。未来组基于PacBioSMRT测序技术,完成了大量复杂基因组组装项目,致力于解决大基因组组装难题、基因组重复序列高、多倍体、杂合度高等组装难题,未来组将发挥技术平台优势,协助各位研究者攻克复杂基因组组装难题。助您的paper登陆顶级杂志。
参考文献
JiaoY,PelusoP,ShiJ,etal.The