北京生命科学研究院方赵庆课题组发布新的基

当缺乏密切相关的参考基因组时,大多数的基因预测方法检测的是来自转录组组件的编码序列。这些方法的应用有限,因为高的转录本片段和广泛的组装错误,可能会导致多余的或错误的编码序列预测。11月17日在国际学术期刊《GenomeBiology》发表的一项研究中,来自中科院北京生命科学研究院的研究人员,提出了一种方法——inGAP-CDG,可以利用基于密码子的deBruijn图表,构建来自未组装转录组的完整长度的和非冗余的编码序列,从而简化了组装过程。这项研究的通讯作者是中科院北京生命科学研究院的赵庆方研究员。

对于有参考基因组的物种来说,通常是用基于同源性的方法来预测功能基因,这可能通过将靶序列对准到近缘种的原始基因,来识别基因。然而,参考数据库只代表一小部分现有的物种,从而限制了这些方法的使用。因此,依赖于已知参考基因组的基因预测方法,限制了我们对于新物种的功能性理解。当缺乏相关的参考基因组时,利用组装基因组序列的从头预测方法,从本质上说是比较困难的——由于训练数据集的质量。

另外,可以基于从头转录组组装来进行基因预测,这可大大降低数据集的大小,并增加获得的功能性信息。然而,这些方法都受到从头转录组组装质量的限制。因此,一种典型的转录组组装,可能会导致大量的片段碎片、冗余和含有错误的转录本。因此,来自组装转录本的同源基因数据集通常是不完整的、支离破碎的和冗余的,经常包含错误和异构体,从根本上歪曲了分子系统分析中对于直系同源的根本假设。

为了克服这个困难,并增加转录组数据集的效用,该研究小组开发了inGAP-CDG,这种算法可执行来自未组装转录组的基因构建。相比较以前的方法,inGAP-CDG可预测直接来自于未组装读数的开放阅读框(ORFs),利用一种监督式的支持向量机制(SVM),来过滤假阳性OPFs,并采用一种新型的基于密码子的deBruijn图表,将纯化的OPFs组装成全长的CDSs。使用模拟的和真实的数据集,该研究小组证明,inGAP-CDG可显著提高基因识别的长度和精确度。inGAP-CDG是用C++实现的,并且源代码及完整文档是免费获取的:


转载请注明:http://www.bjgongshangzhuce.com/jygn/6028.html


当前时间: