文献汇报Lasso方法在肿瘤基因位点筛选

生存分析中建立回归模型的用途一种是想通过模型了解协变量是如何影响生存结局的,另一种是利用协变量来预测生存结局,从而为后续的治疗提供决策支持。在预测模型的研究中,可能有数十种(甚至数千种)预测因子可用。这些预测因子中的大部分可能没有任何结果。例如在生物信息学中,基因位点上亿(自变量数),如果想在这数亿个基因位点中寻找出影响某疾病的位点出来,利用传统的建模方法,样本量个数是自变量个数至少10倍计算,研究的样本量需要十亿或者百亿。这种研究用传统方法不现实,这种数据类型,属于高维数据(自变量个数远大于样本量个数),传统方法不再适用。解决这一方法的问题,类似初中解二元一次方程组,基本思想是消元降维。目前降维的算法有,LASSO,PCA,聚类分析,小波分析,线性判别分析,拉普拉斯特征映射,局部线性潜入等。除了数据维度增加外,常见的另一个问题是数据变量之间存在共线性,共线性的解决方法,岭回归或者PCA。LASSO算法就是基于上述两个问题,提出的一种方法,它是在岭回归的基础上的一种改进,可解决变量共线性和数据的降维。Lasso的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到解释力较强的模型。今天我们继续上篇文献中的实际基因位点数据演示LASSO算法。

上篇中,作者主要利用COX模型筛选出了趋势化因子CXCL17对肝癌的预后有影响。文献中的数据样本量共计例,除了研究对象的性别、肿瘤大小、肿瘤分期、ALT等,还包括CXCL17T等26个基因位点。数据中的变量信息具体见下图。

我们的目的是利用数据中的26个基因位点数据预测OS生存概率。

①LASSO算法要求数据中不能有缺失,首先第一步筛选出例数据中基因位点无缺失的观测。

hpatoCllularNoMissing-hpatoCllular[







































哪里医院看白癜风好
治疗白癜风有什么偏方吗



转载请注明:http://www.bjgongshangzhuce.com/jyxc/3058.html


当前时间: