表型-基因型关联分析,是寻找与性状相关基因的重要手段。在基因型检测的手段不断丰富(重测序、GBS、多重PCR、SNP芯片等)以及成本不断降低的时代背景下,表型检测和数据前处理,就显得尤为重要,因为这将直接影响关联(连锁)分析结果的准确性。
1.表型的类型
常见的表型性状,我们可以将其分为三种:数量性状,质量性状与分类性状(如下表)。数量性状在遗传育种研究中十分常见。此类性状由多基因控制,且可以用数字量化,例如产量、株高等,所以它们也比较容易量化且适用于大部分线性回归分析模型。质量性状是一种简单的离散型分类性状。严格意义上讲,单基因组控制的性状才可能被定义质量性状,例如人类单基因家族遗传病,动植物突变体研究中单基因突变体。表1三种类型性状的特点以上的两种情况都是我们期望的理想情况。但自然界生物的表型比以上两种情况远为复杂,很多表型既不是质量性状又难以简单地用数字量化。例如,某种植物不同品种的花颜色可能包括蓝、黄、红、紫等多种颜色,叶片形状可能三角形、圆形、椭圆形、长条形等。山羊角的数量,可能是无角、正常(二角)、三角、四角等。对于这种情况,则需要我们对表型本质进行剖析,然后对性状进行分级,我们将这种通过人为观察而可以进行分类的离散型变量统称为分级性状。但要注意一点,分级性状最终的定义,还是部分依赖于我们的经验。例如,对于植物的抗病性,我们既可以按照叶片病斑的面积(0~%),将其定义为连续型的数值型性状,也可以人为设定阈值将其定义为分级性状(高、中、低)。对人类的血压,既可以按照血压的高低将其定义为连续型的数值型性状,也可以人为设定一个阈值,然后将人群分为高血压组(病例)和健康组(对照)。而病例-对照研究,正是人类复杂疾病研究的常见模式。因此在实际应用中,符合简单离散分布的性状(例如分为两类),可以是单基因控制的性状,也可以是复杂的多基因组控制性状,只是我们通过一定的标准将样本进行了两类。2.表型值的处理
2.1分布类型的检验对于符合一定遗传模式的性状,其性状分布模式也应该符合一定的特性。例如单基因控制的隐性性状,理论上符合3:1的分离比。我们则可以使用卡方检验来判断。对于多基因控制的数量性状,理论上其表型应该符合正态分布(又称作高斯分布)。当我们拿到一组性状的时候,如何判断其是否符合正态分布呢?图1多基因性状的正态分布最简单的方法,可以R语言中自带的shapiro.test命令进行检验。如果Pvalue5%,则说明数据分布近似正态分布。另外,也可以通过R语言hist命令对表型数据进行可视化(频率直方图),从更直观的角度观察其是否符合正态分布的特点。图2利用R语言绘制数据的分布模式
关于表型数据的正态性判断,也可以登录我们的Omicshare论坛了解一下。《数据正态性检验的方法》