ResCap数据库是一个抗性基因特异性探针数据库,的参考数据来自ARG-ANNOT、CARD、RED-DB、ResFinder、BacMet和ConjDB。
首先应用CD-HIT对所有数据库中的数据进行去冗余,之后应用MUSCLE构建蛋白质家族,利用HMMER3建立蛋白质家族HMMs,将HMMs与UniProtDB比对,发现与构建蛋白质家族同源的序列,ResCap数据库共包含条非冗余序列。
ResCap利用基于SeqCapEZ(NimbleGene)的靶标捕获平台进行捕获探针设计,目前包含个典型抗性基因(条抗生素抗性基因、条农药和重金属抗性基因)、个relaxase基因和个抗生素抗性、农药和重金属抗性基因同源序列的探针。
ResCap的技术路线基于ResCap捕获抗性基因进行研究的步骤包括3步:
全宏基因组鸟枪文库构建:应用FastPrep工具参照MetaHIT标准方法进行DNA提取,KapaLibraryPreparationKit构建-bp文库;
杂交和捕获:应用ResCap进行靶标序列的杂交和捕获;
捕获DNA测序:使用Illumina平台应用NimbleGene标准方法进行测序。
分析流程应用Bowtie2将测序得到的Reads与ARG-ANNOT、BacMet和ConjDB数据库进行mapping。
对Bowtie2得到的SAM格式结果文件进行统计,统计结果包括:
每个基因匹配的reads数目;
每kb基因匹配的reads数目;
只匹配一个参考基因的reads数目;
每个基因匹配序列的覆盖度;
每个基因在样品中的丰度。
新型抗性基因发现除了与参考数据库比对计算已知抗性基因的丰度,ResCap的测序结果还可以用于发现新型的抗性基因,具体步骤如下:
首先,应用MegaHIT对reads进行拼接,采用Prodigal识别ORF,Quast对拼接序列进行定量。
应用BLASTN将ORF与ResCap数据库进行比对,注释阈值:E-value为1E-,一致性大于95%,比对长度大于80%。
将未匹配的ORF应用BLASTP与UniProtKB数据库比对,注释阈值:E-value为1E-,一致性大于95%,比对长度大于80%。
比对之后剩余的未得到任何匹配的ORF未新型抗性基因。
红皇后学术不进即是倒退,不进等于灭亡!