重测序数据中的基因型缺失以及缺失数据填充

GenotypeImputation是在高通量测序中常出现的定义,按照义译就是基因型填充。要理解imputation这个概念,我们就需要先从基因型缺失(genotypemissing)这个现象谈起。

1.基因型缺失的定义

在重测序类的技术中,有一个关键的因素,就是测序数据对基因组的覆盖度。这个问题我们之前有讨论过(戳这里查看~)。样本中没有被测序数据覆盖到的区域,基因型就属于未知的,我们将之称为缺失位点。例如下图中的个体是二倍体,在21个位点中仅有3个位点被检测到,其他标注为“.”的位点都属于缺失位点。

图1个体的基因型缺失

基因型数据的缺失又分为遗传性缺失和检测性缺失。前者是个体遗传信息的变异(例如,这个位点DNA片段真实缺失)导致的基因型缺失。而后者,则是由于检测技术的局限、错误等导致的信息丢失。各类基因型检测技术都会产生检测性的基因型缺失。但我们要认识一点,基因型缺失是相对概念,如果缺失是“无”,那么肯定是和“有”比较出来的。

常见的描述为缺失(missing)的情形包括:

这个基因位点在群体中其他样本上(可以是部分样本)检测到了,而在A样本中没有检测到,就认为这是A样本缺失位点。

这个位点理论上该被检测到(例如,SNP芯片中有探针覆盖的位点)而实际上没有被检测到,也会被定义为缺失位点。

这个基因型在A技术中可以检测到,但B技术检测不到,那么也可以被定义为缺失。

下面我们罗列一下各类技术的缺失来源。

1全基因组重测序技术

全基因组重测序理论上应该覆盖整个基因组,因此未覆盖的区域都可以被定义为缺失。那么群体研究中的低深度测序(一般平均深度低于10X),不可避免会产生大量随机缺失。

2简化基因组测序

简化基因组测序是通过酶切,并富集限制性内切酶周边的片段并进行测序的策略。针对简化基因组,我们称的缺失一般指的是没有被检测到的酶切片段相关的位点。简化基因组的缺失,主要与酶切效率有关。酶切效率越高,缺失率越低。

3外显子测序以及目标区域捕获测序

同简化基因组测序类似,基于探针杂交的DNA捕获以及测序技术,同样会产生大量的缺失。这种缺失主要是由于探针杂交捕获的效率所致。

4SNP芯片

SNP芯片利用芯片杂交后的荧光信号,来判断某个位点的基因型。SNP芯片同样也会产生大量缺失。但在实际的研究中,SNP芯片主要面临的问题是芯片型号不同,甚至来源不同的厂商,那么芯片中包含的SNP位点也不同。当来源不同的数据一起分析的时候,将面临数据不一致的问题。简单说来,就是你有的我没有,我有的你没有。如下图,Affymetrix和illuminate两大SNP芯片厂商生产的人类芯片就使用的是不同的SNP集,当放在一起分析的时候将面临SNP不一致的问题。

图2Affymetrix和illuminate的SNP芯片信息并不一致

,再次强调基因型缺失是1个相对性的概念。以上缺失的概念都是针对同种技术的比较。不同的技术比较,也可以定义为缺失。例如,同样一份样本,我们使用全部以上4种技术检测。如果以全基因组高深度测序(30X)为参照标准,后续的3种技术都有大量位点没有检测到,处于基因型缺失的状态。

缺失的判断也有很简单的计算方法,就是缺失率(missingrate)。这个评价又分为样本水平的缺失率和位点水平的缺失率。例如下图,0、1、2分别代表三种检测到的基因型,图中缺失位点使用“?”表示。那么样本1的缺失率=20%(总体10个位点,有两个位点缺失),而位点2的缺失率=60%(总体5个位点,有3个位点缺失)。

图3位点水平和样本水平的缺失率

2.基因型缺失的影响

基因型缺失最直接的影响就是这个位置的信息缺失,从而影响下游分析(包括遗传图谱构建,QTL定位,选择压力分析,GWAS分析等)的信息完整性和准确性。例如,图4(b)中红色的点是图4(a)中缺失的位点。而与性状关联的SNP位点,恰恰位于虚线所在的区域内。这些显著位点在(a)中是缺失的,所以(a)没有检测到关联信号,从丢失了非常关键的信息。

图4缺失的数据(a)和非缺失数据(b)关联分析结果的比较。

所以,基因型缺失 的风险就是信息丢失。基因型缺失对GWAS分析、选择压力分析影响都比较大。这类研究中,重测序技术相比其他三种技术, 的优势就是信息完整。

但某些研究对标记密度要求不是那么高,缺失的影响则较小。例如,对于遗传图谱类构建,通常几千个标记就足以保证检测所有的染色体重组事件。而简化基因组测序通常可以获得数万个标记,我们通常会将高缺失率的位点直接过滤放弃,只保留剩余的高质量的低缺失率位点(通常依然有几千个)用于下游分析,保证重组率计算的准确性。

3.应对数据缺失的方法——基因型填充

尽管基因型缺失有种种不利影响,但我们却无法完全避免。例如,在有限的经费下,没有经费提高测序深度;简化基因组测序无法保证酶切效率%;我们无法保证某个研究涉及的所有样本都来源affymetrix同个型号的芯片……,那么我们只能使用生物信息的策略,来减少缺失的影响。这个方法就是基因型填充(imputation)。

Imputation英文的原意应该是归罪、归属。而imputation在这里指代的意思是对这个位点的基因型规律进行总结,然后对缺失位点归到某类中,赋予其一个最可能的基因型。所以,我将之称为缺失填充。常见imputation的基本逻辑包括两步:

从目标位点/区域非缺失的位点中,总结这个区域的基因型规律,并分类。其实就是分析各个区域的单体型组成。

根据某样本缺失位点的上下其他非缺失位点,判断这个区域属于哪种单倍型。然后根据所属单倍型的基因型补充该样本的缺失位点。

看图说话会更加直观(如下图5)。在图5(a)中,那个有大量缺失基因型的个体就是图1中的个体。图中下半部分由多个个体构成的参考单倍型集(referencehaploypes)。这些参考集的基因型都是完整的。从这些参考数据集中,我们可以推断整个群体的单倍型构成。然后,根据缺失样本有限的基因型信息(仅有3个位点),就可以判断这个样本与参考单倍型集中的哪种单倍型最为相似(图中分别对应紫色、绿色、黄色三种单倍型)。然后,将对应的最相似的单倍型赋予给该样本,从而让该样本获得完整的基因型(图b)。

图5imputation的常见逻辑

绝大部分imputation软件都是使用类似的逻辑完成基因型的补充,从而降低样本的缺失率。广义上的缺失数据补充分为两种情况:

策略1:没有参考数据集,利用群体本身的基因数据推断缺失位点的基因型。

这相当于你只有图3中的数据,而没有其他参考的数据集。那么,你可以基于图3中的数据构建单倍型集(如果样本足够多,且缺失并不是很严重)并相互补充缺失数据。这种情况常见与动植物研究(因为大部分动植物参照数据有限或没有)。比较经典的文章就是年水稻GWAS的文章[1]。作者在仅仅使用1X的测序深度的情况下,通过imputation将平均位点缺失率从61.7%降低到2.9%。在另一篇文章中,研究人员也是使用软件beagle实现对水稻低深度(平均2.2X)测序数据的imputation[2]。

策略2:有参考数据集,利用参考数据集实现缺失位点填充。

群体的参考数据集可以是亲本基因型信息(作为子代个体基因型imputation的参考),同个种群的其他测序数据等。由于hapmap计划、千人基因组计划等提供了丰富的参考数据集,所以基于参考数据集的imputation广泛应用于人类的群体研究。

4.Imputation相关的软件

Imputation相关的软件大部分是围绕人类群体研究而开发的,比较经典的软件包括impute1,impute2,MACH,Beagle等,这里篇幅有限就不详细展开介绍,更详细的介绍可以阅读相关综述[3]。例如beagel就可以实现以上提到的策略1和策略2的分析。但以上大部分软件都是针对人类的开发的。人类种群的遗传特性是个体杂合率较高、近交率低、系谱关系来源随机(换成大白话就是:禁止乱伦,崇尚自由恋爱啊)。

很多植物,尤其作物的遗传特性则和人类相反。以玉米为例,玉米在育种过程中,会伴随大量的自交,因此纯合度较高,而且系谱关系(杂交方式)往往可控。另外,目前在植物育种上会大量使用简化基因组测序(尤其GBS测序策略)。这种测序策略成本低,但产生的数据包含大量缺失位点。因此,对于玉米这类作物GBS数据的imputation,以上针对人类学开发的软件就未必适用了。

经典的关联分析软件Tassel就针对作物群体GBS的数据,开发了imputation的模块。这个模块中最重要的两个算法是针对自然群体的FILLIN子模块和针对全同胞家系的FSFHap子模块[4]。所以,如果是遗传特性与玉米类似的植物的GBS数据,可以采用Tassel中包含的imputation模块来完成分析。

参考文献:

[1]HuangX,WeiX,SangT,etal.Genome-wideassociationstudiesof14agronomictraitsinricelandraces[J].Naturegenetics,,42(11):-.

[2]HuangX,YangS,GongJ,etal.Genomicanalysisofhybridricevarietiesrevealsnumeroussuperiorallelesthatcontributetoheterosis[J].Nature







































北京治疗白癜风多少钱呀
毒性



转载请注明:http://www.bjgongshangzhuce.com/jygn/2409.html


当前时间: