基因型数据可以是SNP数据(0=AA1=AB2=BB)也可以是连续性的基因表达数据。表型数据可以是连续性变量,二分类变量,时间依赖的生存状态变量等。
习题1目的:分析基因型(SNP1)与收缩压(SBP)的关系。
可能的影响因素:年龄、性别、种族。
数据文件和变量注解文件:regtest2
数据格式:全数字编码,通常SNP数据编码为0=AA,1=AB,2=BB。
数据下载:点击本文末阅读原文下载
软件操作基本统计-遗传学统计-基因型与表型关联分析模块。应变量(Y)处放入SBP,基因型变量(X)放入SNP1,调整变量年龄、性别和种族。勾选“SNPdata”点击查看结果。
结果出来了。分别采用显性、隐性、相加三种模型进行检验。表现型是连续变量,系统对每种基因型分别计算出表现型的调整均值。
本例结果解读表中结果依次是每种基因型的样本量、收缩压的均值(调整后的)、得出回归系数、标准误和p值,分别采用相加(-add)、显性(-dom)和隐性(-rec三种模型进行检验)。
可以看出本例中相加模型的p值最小(0.),因此得出SNP1对SBP的效应是相加模型。β=2.68解读为基因型每增加一个a(从AA到Aa,或从Aa到aa),SBP增加2.68mmHg。并且是考虑到年龄、性别和种族的独立作用。
适用范围结局指标(Y):
可以是连续变量、二分类变量
也可以考虑到随访时间做时间依赖的生存状态变量
基因型数据(X):
可以是SNP数据(0=AA1=AB2=BB)也可以是连续性的基因表达数据
可以做一个基因型变量或同时做多个
调整和分层变量:
调整变量可以是连续变量(可以做曲线拟合)、分类变量
可以加分层变量
高级玩儿法
家系数据可以基于GEE进行分析
细心的易侕老司机可能会注意到,上面的操作中用曲线拟合调整了年龄(在曲线拟合处勾选了S),目的是更好的拟合年龄和SBP的关系。
请思考:年龄是否是混杂?调整年龄与不调整年龄结果有什么不同?为什么?年龄3等分组、5等分组、曲线拟合、直线拟合4种不同的调整方案,是否都可取?哪种不可取?
往期精彩回顾关联分析(危险因素研究)的分析思路+自测实战预测模型校准曲线Calibrationcurve(中篇:基于Cox模型)预测模型校准曲线
Calibrationcurve(上篇)
点击