随着高通量测序技术的飞速发展及相关技术的广泛应用,生物医学相关研究领域已进入了大规模组学数据呈指数增长的后基因组时代[1].一方面,这使得生物医学研究得以从单个基因的分析转变为系统水平上的研究,对于揭示生物医学的基本分子机制具有重要推动作用.但另一方面,如此庞大的数据量也给信息的有效提取和分析带来了巨大的挑战.为了从庞杂的组学数据中发掘规律,研究者通常会对基因功能进行富集分析,期望发现在生物学过程中起关键作用的生物通路,从而揭示和理解生物学过程的基本分子机制.现在,基因功能的富集分析已成为功能组学数据分析的常规手段,并随着高通量组学数据的发展,如从基因芯片数据到RNA-seq数据的转变,开发出了一系列相应的分析方法,最早开发的过代表分析(over-representationanalysis,ORA)仅针对一组基因,而高通量组学数据的发展使得功能集打分(functionalclassscoring,FCS)应运而生,随着对于生物学通路及复杂网络的深入完善和了解,又相继开发了基于通路拓扑结构(pathwaytopology,PT)和基于网络拓扑结构(networktopology,NT)的方法.本文拟对现有的基因功能富集分析方法进行简要的总结评述,以方便研究者了解相关领域,并选择适合的研究工具.
1基因功能富集分析的基因功能数据库和数据类型基因功能富集分析中的基因功能指的是众多代表一定的基因功能特征和生物过程的基因功能集(geneset)[2].由这些基因功能集构成的常用基因功能数据库有GO[3],生物学通路,包含生化反应、代谢或信号通路的KEGG[4,5],Reactome[6],Biocarta[7]等,整合数据库,如MsigDB[8]等.
在功能组学研究中,研究者通常会获得一组他们感兴趣的基因,如在疾病和正常组织中有显著差异表达的基因,在药物或外界环境刺激下特定组织中表达水平有显著异常的应激基因等.要揭示其中隐含的生物学分子机制,研究者可针对这组感兴趣的基因,进行基因功能的富集分析,发现在其中有显著富集的特定生物学通路,从而从分子机制上来解释所观察到的生物学现象.除此以外,高通量组学技术,如基因表达芯片(microarray)或RNA-seq,可获得基因组中所有基因的表达水平.为充分利用获得的高通量数据,研究者也可以直接针对全基因组基因表达谱信息来进行富集分析,从中鉴定出案例和对照状态下在研究对象中发生显著表达差异的生物通路,从而揭示其中的生物学分子机制.针对这些不同的数据需要开发不同的功能富集分析方法.例如,对于基因表达芯片和RNA-seq,在富集分析过程中原始数据的处理方式是不同的.其中,基因芯片记录的是连续的荧光信号强度值,而RNA-seq记录的是RNA序列的读段个数[9],需要采用不同的统计模型进行分析.即使对同一类型数据,基于不同的假说和统计方法,研究者也开发出了不同的富集分析算法和模型.现在已有上百种富集分析的方法和工具,一方面极大地促进了研究者的科研工作进展,另一方面也给研究者在选择合适的研究工具时带来一些困扰.以下将针对现有方法进行分类综述,具体方法及工具详见表1.
2基因功能富集分析方法基于算法的分类基因功能富集分析的方法基于数据来源和算法大致可以分为4大类:ORA,FCS,PT,NT的方法(图1).下文将对每类算法分别介绍.
2.1过代表分析(ORA)方法(1)算法原理.作为最早出现的一类基因功能富集方法,ORA针对的数据是一组感兴趣的基因(基因列表),其目的是在这组基因中发现有明显统计学上富集的基因功能集.其基本步骤包括先将给定的基因列表与待测功能集做交集,找出其中共同的基因并进行计数(统计值),最后利用统计检验的方式来评估观察的计数值是否显著高于随机,即待测功能集在基因列表中是否显著富集.常见的统计学方法有卡方检验,Fisher精确检验和二项分布检验[45],而其中最为广泛使用的是Fisher精确检验,即利用2×2的列联表,根据超几何分布来检验基因列表中的基因在待测功能集中是否显著富集.
(2)常用方法和工具.目前有许多工具及数据库提供ORA的使用,包括DAVID,GOstat,Gen-MAPP等.其中DAVID提供的基因功能集数据库最为全面,不仅包含大量不同物种的基因功能注释信息,也涵盖了主流的生物通路注释库如GO条目和KEGG通路,而且还提供了基因名称转换功能,及良好的结果展示界面.因而,DAVID已成为目前应用最广泛的ORA分析工具.
(3)优缺点.ORA方法基于完备的统计学理论,具有结果稳健、可靠的优点.但目前常用的基于统计检验的ORA方法也有一定的局限性,包括:(ⅰ)在对基因进行计数时,丢失了基因的表达水平或表达差异值等基因属性信息;(ⅱ)把通路中的所有基因进行同等对待,忽视了基因在通路内部生物学意义的不同(如调控和被调控基因的不同)及基因间复杂的相互作用;(ⅲ)在获得感兴趣的基因时,往往需要选取合适的阈值,而这样有可能会丢失显著性较低但比较关键的基因,导致检测灵敏性的降低.为此,人们需要开发新的富集分析方法来解决这些局限性.
2.2功能集打分(FCS)方法(1)算法原理.相比于针对一组感兴趣的基因通过计数来进行富集分析的ORA方法,第二代功能富集分析方法FCS的输入数据不仅是全基因组基因,并且还考虑到每个基因的表达水平或表达差异值等基因属性信息.此外,ORA的检验对象是感兴趣的基因列表与待测基因功能集的共同基因,而FCS的检验对象则是待测基因功能集中的所有基因.FCS方法的基本步骤包括:首先根据案例和对照状态下的基因表达谱对基因组中所有基因表达水平的差异值进行打分或排序,或直接输入排序好的基因表达谱;其次是把待测基因功能集中的每个基因的分数通过特定的统计模型转换为待测基因功能集的分数或统计值;最后利用随机抽样获得的待测基因功能集统计值的背景分布来检验实际观测的统计值的显著水平,并判断待测基因功能集在案例和对照实验状态下是否发生了统计上的显著变化.
(2)常用方法和工具.GSEA是常用的一种FCS方法.其基本思路是首先基于表达差异值对全基因组基因进行排序得到基因列表,然后检验待测基因功能集中的基因相对于随机情况而言,是否显著地位于基因列表的顶端或底端,即待测基因集的表达水平在案例和对照实验状态下是否发生了明显的变化.具体而言,GSEA首先计算了每个基因的表达水平与案例和对照两种状态下的关联系数,并对关联系数从高到低进行了排序;然后,针对一特定的待测基因功能集,根据其中每个基因的排序情况,利用加权的近似KS检验,获得待测基因功能集在排序列表中的KS检验值—也即待测基因功能集的统计值;为检验观察统计值的显著性,GSEA通过对样本的随机排列来获得统计值的背景分布,并利用该分布来评估观察统计值的P值.除对样本的随机排列外,在样本量较少的情况下,GSEA也可用对基因的随机排列来估算待测基因功能集的显著水平.
在FCS方法中,不同方法采用了不同的统计模型来计算待测基因功能集的统计值.如GSEA使用了加权的近似KS检验,GSA利用基因的表达差异的t值的绝对值来计算待测基因功能集的统计值,PADOG采用基因的t值加权平均值,SAFE利用了Wilcoxonranksum统计检验方法,而GlobalTest则采用了经验贝叶斯广义线性模型.另外,在获得待测基因功能集统计值的背景分布时,不同的FCS方法采用了两种主要模式来定义背景,一类是竞争型(白殿风用醋北京哪家看白癜风好