基因集富集分析(GeneSetEnrichmentAnalysis,GSEA)
——一种基于现有知识解析全基因组数据资料的方法
汇报人:熊珂
研究背景
医学生物学的研究过程中对测序数据的解读越来越重要,其结果常常用于指导下一步的机制研究方向。一般主流的做法是常规选取差异基因中的top基因进行分析,但这种做法存在着一些不足:
1、在基因芯片的分析中,经过多重假设检验校正后,可能没有一个基因达到有统计学差异的阈值,其生物差异性的影响可能还不如芯片的背景噪声。
2、发现了有显著性差异表达的基因(具有统计学意义),但是其却没什么生物学意义。同时选取单个基因进行研究也多是靠研究人员的经验与主观判断,这可能会遗漏部分核心基因。
3、一系列协同作用的基因会影响细胞的生命活动。单基因分析可能会遗漏对通路的重要影响。例如编码代谢途径重要成员的基因上调20%,可能会显著改变该途径的效果,而且可能比单个基因增加20倍更为重要。
4、当研究相同的生物作用通路时,这两项研究中具有统计学意义的基因列表可能会很少有重叠。(如肿瘤药物敏感组VS不敏感组)
因此作者提出了GSEA(GeneSetEnrichmentAnalysis)方法来解决传统分析的缺陷。GSEA的目标是确定一个基因集S的成员是否倾向于出现在列表L的顶部(或底部),在这种情况下,该基因集与表型分类区分相关。
主要方法学介绍
GSEA的使用场景主要在两类样本(如上图中的A类,B类)进行对比研究。A类与B类的区分是人为既定的,比如根据生物学表型进行分类。分类之后,将所有的基因按照表达量进行排序(即后文所定义的基因列表L),这就是可用于GSEA分析的数据结构。同时根据已有知识来构建基因集合(即S集合,S集合可以是编码代谢通路中所有代谢产物的基因集合,位于相同的细胞遗传学带的基因集合,或分享相同GO类别的集合等等)。
步骤一
计算富集分数(EnrichmentScore,ES)
我们通过S集合在排序好的列表L的两端(基因上调区/下调区)的富集程度来计算富集分数(ES)。计算方式是,从基因列表L的第一个基因开始,顺序向下走,计算一个累计统计值。当遇到一个S集合里面的基因,则增加统计值。遇到一个不在S集合里面的基因,则减少统计值。每一步统计值增加或减少的幅度与基因的表达变化程度是相关的。富集分数ES被定义为在逐步计算中的峰值(即以0为基准的最大偏差统计值)。正值ES表示基因集S在列表L的顶部富集,负值ES表示基因集在列表L的底部富集。ES计算的本质其实就是加权Kolmogorov–Smirnov统计。
PS:Kolmogorov–Smirnovtest的部分定义
步骤二
估计富集分数的显著性水平
ES的显著性检验是通过基于表型而不改变基因之间关系的置换检验(permutationtest)计算,观察到的富集得分(ES)出现的可能性。通过重新排列组合打乱表型分组,重新计算ES列表,即可得到ES的零分布ES(S,π),看原始ES值是否落在95%置信区间内。但如果A类+B类样本少于7个,则通过打乱基因集所有子集s做置换检验计算p-value。
这里作者指出了如果经过排列组合基因子集s而计算出的新ES不在95%置信区间内,则意味着此子集s可能具有生物学意义,改变子集s将可能带来差异。
步骤三
矫正多重假设检验
首先对每个基因子集s计算得到的ES根据基因集的大小进行标准化得到NormalizedEnrichmentScore(NES)。随后针对NES计算假阳性率。(计算NES也有另外一种方法,是计算出的ES除以排列检验得到的所有ES的平均值)。之后再针对NES计算FDR(falsediscoveryrate),FDR是评估一个NES表达值中所发现的假阳性可能性大小;它是由NES的观测值和零分布时比较得出的。
领头亚集(leadingedgesubset)
基因集合S的定义方法更具现有的知识及人为分析可以多种多样,值得指出的是,多少情况下并不是S集合里所有的基因参与了S集合代表的生物学过程。所以一般是要挑选出ES分数高的核心成员基因,这些属于S集合的基因被称为领头亚集(leadingedgesubset)。
当ES为正值时,领头亚集位于ES值对应排序序列之前,反之,则位于ES值对应排序序列之后。领头亚集的出现说明一方面这些基因在通路中有富集,非散在分布,另一方面,说明这些基因在通路中有共同的表达趋势。在ES图中出现领头亚集形状的,表明这个功能基因集在定义的实验条件下具有更显著的生物学意义。
推荐本文献理由:
近年来文献中出现GSEA分析图的频率越来越高,越来越多的文献开始使用GSEA来替代Fisher’sexacttest判断一条通路是否被激活/抑制,所以理解GSEA的结果判读有助于我们理解作者意图。值得注意的是,GSEA方法本身也是存在着诸多限制及应用条件,如果能对其原理有一定理解,那么就能一定程度上避免错误的使用GSEA。
参考文献
1.AravindS,PabloT,VamsiK,etal.Genesetenrichmentanalysis:Aknowledge-basedapproachforinterpretinggenome-wideexpressionprofiles.[J].PNAS,,:–-.
2.HungJH,YangTH,HuZ,etal.Genesetenrichmentanalysis:performanceevaluationandusageguidelines[J].BriefingsinBioinformatics,,13(3):-.
白癜风诊疗目标白癣风怎么医