分类预测分析
预测基因的选择方法我们通常会设定一个统计显著水平来作为选择预测基因的筛选标准,例如在分类比较分析中选定p值小于0.的显著差异基因作为预测基因。
但分类预测真正的目的并不在于发现差异表达基因,而是寻找特征基因来预测结果,希望得到较少基因来构成分类模型,这样可能会在生物学意义方面更易解释,且在临床上更易应用。
交叉验证是分类预测分析中的基本概念,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(trainset),另一部分做为验证集(validationsetortestset),首先用训练集对分类进行训练,再利用验证集来测试训练得到模型(model),以此来作为评价分类模型的性能指标。
例如10折交叉验证(10-foldcrossvalidation),就是将数据集分成十份,轮流将其中9份做训练,1份做验证,10次的结果的均值作为对算法精度的估计。下期将详细介绍其方法。
由于我们并不知道到底选定一个严格的还是宽松的p值会带来更好的预测结果,所以需要一种在某个显著性水平区间内进行搜索,来确定一个最优的预测基因选择阈值——“可调参数”(TuningParameter),使分类模型的交叉验证错判率最小。
我们可以通过这样一个双重循环交叉验证进行:外层循环通过由训练集中分出的一个或多个样本组成的测试集来估计交叉验证错判率,内层循环对“可调参数”进行优化。当然,其中的计算强度相当大。
这种基因选择的方法是基于单个基因在不同分组中差异表达的排名高低。有些分类预测模型提供了多元建模方法来选择基因,但是纳入的标准都是基于基因在单变量检验中的“辨别能力”(DiscriminationAbility)。
另外一个选择基因的方法是Bo和Jonassen所开发的贪婪配对法方法(Greedy-pairMethod)首先根据训练集算出所有基因的单个t值,并进行排序,然后找出当前首位基因gi的配对基因gj,配对标准是:两个基因在对角线判别轴上进行投影时,两组分类的质心距离最大。
这两个基因被选出后,再剩下基因中重复以上过程直到选出基因数达到设定的配对数。该方法以选择配对基因来有效地区分组别,且是一种计算高效的方法。当然必须要设定的基因数(即配对数的两倍)。
还有一种方法叫支持向量机的递归特征消除方法(SupportVectorMachineRecursiveFeatureElimination,SVMRFE)。该方法首先使用支持向量机分类模型根据预测性能对基因来进行排序。
SVM算法是基于基因表达量的加权线性组合来区分组别。选择的线性组合能够最大化区分出难以分类的样本和识别出判别边界或距离。
首先,所有基因的表达值被用于训练SVM分类模型。SVMRFE算法则会去除线性组合中权重绝对值较低的基因,并在剩余基因中继续重建新的SVM分类模型,不断迭代剔除基因直到达到设定保留的基因数目为止。
下期为大家介绍一些分类预测中的标准模型,敬请期待。