基因型与表型关联分析

基因型数据可以是SNP数据(0=AA1=AB2=BB)也可以是连续性的基因表达数据。表型数据可以是连续性变量,二分类变量,时间依赖的生存状态变量等。

习题1

目的:分析基因型(SNP1)与收缩压(SBP)的关系。

可能的影响因素:年龄、性别、种族。

数据文件和变量注解文件:regtest2

数据格式:全数字编码,通常SNP数据编码为0=AA,1=AB,2=BB。

数据下载:点击本文末阅读原文下载

软件操作

基本统计-遗传学统计-基因型与表型关联分析模块。应变量(Y)处放入SBP,基因型变量(X)放入SNP1,调整变量年龄、性别和种族。勾选“SNPdata”点击查看结果。

结果出来了。分别采用显性、隐性、相加三种模型进行检验。表现型是连续变量,系统对每种基因型分别计算出表现型的调整均值。

本例结果解读

表中结果依次是每种基因型的样本量、收缩压的均值(调整后的)、得出回归系数、标准误和p值,分别采用相加(-add)、显性(-dom)和隐性(-rec三种模型进行检验)。

可以看出本例中相加模型的p值最小(0.),因此得出SNP1对SBP的效应是相加模型。β=2.68解读为基因型每增加一个a(从AA到Aa,或从Aa到aa),SBP增加2.68mmHg。并且是考虑到年龄、性别和种族的独立作用。

适用范围

结局指标(Y):

可以是连续变量、二分类变量

也可以考虑到随访时间做时间依赖的生存状态变量

基因型数据(X):

可以是SNP数据(0=AA1=AB2=BB)也可以是连续性的基因表达数据

可以做一个基因型变量或同时做多个

调整和分层变量:

调整变量可以是连续变量(可以做曲线拟合)、分类变量

可以加分层变量

高级玩儿法

家系数据可以基于GEE进行分析

细心的易侕老司机可能会注意到,上面的操作中用曲线拟合调整了年龄(在曲线拟合处勾选了S),目的是更好的拟合年龄和SBP的关系。

请思考:年龄是否是混杂?调整年龄与不调整年龄结果有什么不同?为什么?年龄3等分组、5等分组、曲线拟合、直线拟合4种不同的调整方案,是否都可取?哪种不可取?

往期精彩回顾关联分析(危险因素研究)的分析思路+自测实战预测模型校准曲线

Calibrationcurve(中篇:基于Cox模型)预测模型校准曲线

Calibrationcurve(上篇)

点击


转载请注明:http://www.bjgongshangzhuce.com/jyyf/5850.html


当前时间: