年12月26日刚上班,还是如往常一样先大概浏览一下这一天的mNGS病原微生物自动解读结果,没问题的话就开始一天的研发工作了。
意外的是,发现有一个样本报出了敏感病原体——SARS冠状病毒,有几十条的序列,且这个样本只有这么一个有意义的病原体,如果是普通病毒,这已经是一个相当可靠的结果了。心头一紧,赶紧后台查看详细的分析数据,发现相似度并不算很高,只有大约94.5%(这跟卡相似度的阈值有关,相当于只筛选下了相似度比较高的序列)。想到有几种可能:1、SARS不同毒株基因组有一定差异;2、RNA病毒容易突变,距离SRAS事件17年了,变异比较大;3、近缘物种的错误比对等等。为了确认结果的可靠性,开始了详细分析。
好在之前已经遇到过几次这种类似的敏感的病原体确认分析工作,而且领导也曾跟我讨论过几次能不能做一个新发病原自动挖掘的分析流程,心里一直记着这个事情,在做其他权重更高优先级更高的项目时也随手做了一个初步的版本出来,这个样本刚好可以派上用场。我给它起了个名字,相比于日常生产用的分析流程,它多了个后缀:“探索版”,包含了几乎所有已测序的病毒基因组。
探索版的分析结果提示这个病原体跟BatSARSlikecoronavirus最相似,整体相似度在87%左右,而跟SARS的相似度是约81%。比对上的序列数由几十条上升到了多条,此外也组装出了5条contig,加起来有多bp,此时基本上可以确认是一种冠状病毒,可以针对冠状病毒进行详细分析。分析期间也开始跟解读负责人和领导小范围内部保密讨论。
进一步分析,无论是拿原始序列去NCBInt库blastn,还是拿组装后的序列去blastn,结果都是跟BatSARSlikecoronavirus最相似,但整体的相似度也是只有87%左右,进行nr库蛋白blastx对比的相似度也差不多,因此对结果保留怀疑。
病毒的分类信息一直都很混乱,分类规则不统一,有些基于分型基因(比如甲流)、有些则没有明确的分型基因,通过其他方法去分类。此前并没有去调研过BatSARSlike跟SARS的分类方法,在NCBITaxonomy上,BatSARSlike是划分到SARS下面的。如此紧急的情况下,没有时间去调研文献,手上的数据也不多,基于基因组的相似度,潜意识里认为既然BatSARSlike是SARS的下属分类,那么这个检测到的未知病毒至少也是一个跟BatSARSlike平行的物种,即一个新型的BatSARSlike(后来看文献SARS和BatSARSlike是通过几个非结构蛋白进行分类)。
进一步地毯式地分析了几千个冠状病毒基因组,从相似度、覆盖率、基因组分布均匀等几方面进行评估,最终找出两株最相似的基因组,bat-SL-CoVZC45和bat-SL-CoVZXC21(1月9号公布基因组序列后,很多文章分析的也是这两个)。
(下午才发到群里的图)
仅仅这些信息还是不够的,至少还要看看进化上的信息,于是开始着手做进化树分析。
下载了所有冠状病毒的基因组,最后经过质量过滤、聚类等分析,筛选出了株的冠状病毒基因(基本包含了所有已知的各种动物的冠状病毒)。将组装的序列与株冠状病毒基因组基于全基因组平均相似度做了进化分析(题外话,个人认为在物种进化分析上,基于全基因平均相似度构建进化树,比基于某个基因构建的进化树要更准确、合理一些,毕竟是从全局来考量,当然,研究结构、功能等另说,此时组装的序列也很短,没有完整的基因序列),结果不出意外,还是跟BatSARSlikecoronavirus聚得最近,而且也是在SARS的大支上。
(跑到了傍晚才出图)
图注:左上角一大块红色是SARS,边缘颜色没那么红的是BatSARSlike,再往外的大蓝边是另一群BatSARSlike,未知的病毒跟45、21聚在比较独立的一支上了,红框圈起来的。
比较奇怪的是,这个未知的病毒跟bat-SL-CoVZC45和bat-SL-CoVZXC21聚到了一个相对独立的分枝上,而其它BatSARSlike则很集中地聚在SRAS那一群里面,想着也许是这两个的分类有点问题,但去看了出处的文献,方法上跟其它的也没啥区别,尊重文献的分类吧,暂且认为是对的。(这也是后面某些专家们把这个未知病毒判定为新型冠状病毒的依据之一)
(部分进化树截图)
前端反馈这个患者病重,着急要检测结果,但是这么一个重大的病原体确实不可轻易报出,中午跟几个领导紧急开了个会,决定继续深入分析,延迟发放报告,同时分享数据给中国医学科院病原所一块分析。
后面从基因层面(orf1ab、S、N等基因)进行了深入分析,并没有什么意义比较大的发现了,主要还是检测到的序列数少,覆盖率太低,都是不完整的基因,做不了什么。
中午时已经提出了重测补数据进行分析。重测可以进行技术重复性验证,避免一些未知因素的污染导致的假阳,确保样本确实有该病原体,另外可以有更多的数据进行分析,如能组装出完整的基因组,分析结果更可靠,能做的深入分析也更多。
第二天(.12.27)一早数据出来后,赶紧进行了组装分析,终于组装出了接近完整的基因组序列。数据同时也共享给了中国医学科学院病原所做其他深入分析。这次的序列数由之前的多条升到了47万多条!
因为时间有限,还有其他研发项目需要做,就没有详细去对组装结果进行补gap获取完整基因组了。另外也已经分享数据给病原所了,他们也会做这个,所以就没有去组装出一条完整的基因组序了,已有的组装结果能满足大部分分析需求了。
后面也继续做了一些深入的分析。
回帖序列分布均匀,没有明显的偏好,平均深度和中位深度基本一致,深度达到了x,说明组装没啥问题,测序也挺好,未知病原体也是完整的基因组存在。
重新构建了进化树,这次选择了NCBI所有冠状病毒的参考株(以登录号以NC开头,官方认为最可信的),外加几株前一天分析最近源的株。
进化树结果跟前一天的基本一致。
基因组共线性分析、ORF注释等表明这个未知冠状病毒是典型的BetaCoV(orf1ab、S、M、N、E等基因)。共线性图里颜色较浅的是S蛋白区域,是差异最大的基因。
经过与WHO