基因集富集分析MAGENTA

GWAS(全基因组关联分析)给我们提供了遗传变异跟疾病或者性状之间的关联。然而单纯的GWAS面临两个亟待解决问题。

首先,严格的多重比较校正使许多微效变异无法通过校正水平(而多个这样的微效变异有可能会共同作用从而对性状产生较大的影响)。

其次,通过GWAS,我们仅仅能得到遗传变异跟性状之间的关联程度,其中的复杂机制却不得而知,大多数情况下更像是研究者们自己在编故事。

通路分析就是在这样的背景下被提出。大家常见的富集分析就属于通路分析的一种。今天给大家安利一种实现富集分析的软件,MAGENTA(Meta-AnalysisGene-setEnrichmentvariaNTAssociations),它的基本思想是将SNP(单核苷酸多态性)定位到位于通路中的基因上去。一方面人体中通路个数要远远小于SNP个数,这样多重比较校正的次数明显减少;另一方面,在解释发现的SNP对疾病或者性状的影响就显得有理有据了。

当然,MENGENTA还有自己的特色,它不仅能用于独立的GWAS(个体被试的基因型是已知的),还可应用于meta分析这种综合各种大数据得到的整合信息。

MAGENTA原理,简单的四步就能搞定

1、SNP到基因的过渡,即由SNP的P值来计算Gene的分数(这个过程涉及到将所有SNP定位到基因上及根据Gene范围内的SNP来计算Gene分数,比如所属SNP中P值最显著的或者所属SNP的P值的均值)。

2、去除上述过渡中的混杂因素,SNP跟基因毕竟不同,上述过渡必定引入基因的特性,比如基因大小,基因SNP的密度等(大的基因分到的SNP倾向偏多,计算出来的Gene分数也倾向大些),文章提出两种去除混杂因素的方法,即置换法和逐步多元线性回归。

3、基因到基因集(通路)的过渡,以前单个候选基因的研究方法弊端在于统计学很有显著性,解释起来却苍白无力,主要是没有应用生物学知识,这里我们需要应用先验的生物学知识,合理的选择基因集,完成从基因到基因集的过渡,当然,你可以用各种数据库提供的基因集,也可以根据自己的需要定制感兴趣的基因集。

4、计算基因集的富集分数,这步的核心思想是看你的基因集跟随机采样的等大小的基因集所计算出来的Gene分数有无显著性的差异。完成此步,你需要先把基因组中的所有Gene分数从小到大排序,选择第95百分位点作为一个cutoff值。然后看看你感兴趣的基因集中Gene分数比curoff小的占多大比例,即所谓的leadingedgefraction。然后多次随机采样等大小的基因集(比如次,根据自己需要),按照上述的方法,会生成多个LeadingEdgeFraction,形成一个分布,最后看你感兴趣基因集的leadingedgefraction在分布中的位置是否显著。

当然多重比较校正还是要做的,采用bonferroni校正,此时显著性水平除以的不再是SNP个数啦,而是基因集的个数。现在是不是对出现阳性结果信心大增。

如果你感兴趣,可以阅读下面这篇文章,另附赠ppt一份。

Segre`AV,DIAGRAMConsortium,MAGICinvestigators,GroopL,MoothaVK,etal.()CommonInheritedVariationinMitochondrialGenesIsNotEnrichedforAssociationswithType2DiabetesorRelatedGlycemicTraits.PLoSGenet6(8):e.doi:10./journal.pgen.









































中科白癜风让新年不白过
金扬沙银屑胶囊是不是治白癜风的药



转载请注明:http://www.bjgongshangzhuce.com/jyzl/5576.html


当前时间: