随着科技的进步和分子遗传学的发展,人们对基因功能有了越来越多的了解。但是截至目前,大多数的基因功能还是未知的。而且,由于科学伦理和研究技术的限制,科学家们无法对功能丧失(lossoffunction,LOF)变异进行大规模工程研究。在外显子组和基因组的测序项目中,科学家们发现预测的LOF(predictedLOF,pLoF)变异普遍存在于自然人群中,因此可以将这些变异作为基因失活的自然模型:含有pLoF变异的基因对于LOF耐受性高,反之耐受性低。
绝大部分的LoF变异都是有害的,在人群中的频率非常低,因此对LoF的研究需要大规模人群的全外显子组和全基因组测序数据。另外,由于比对、分型和注释错误,使得pLoF变异富含假阳性结果,因此在本文的研究过程中,科学家们对变异的发现和LOF评价都进行了严格的处理、过滤和验证。
编码区变异的人群研究可以用来评估基因或区域内的自然选择强度。自然选择可以清除人群中的有害变异,与期望相比,利用变异的减少程度(constraint)或等位基因频率分布的改变可以计算自然选择的强度。在此之前,关于constraint的模型已有报道,例如Lek等通过研究ExAC数据集发现3,个基因对于杂合pLoF变异是高概率不耐受(pLI)[1]。然而,对于长度较短的基因,即使是在包含6万个体的人群中,变异的期望数目依然非常低。而且之前的pLI二分法,对于选择压力的多样性和pLOF变异的不耐受性没有进行更加精细的体现。因此随着人群样本数目增加,对于选择压力的定量会更加精准。本文使用来自gnomAD数据库,个全外显子数据和15,个全基因组数据,检测其中的pLoF变异,并开发了一个连续变量来体现基因对于pLoF变异的不耐受程度。
整篇文章的分析思路如图1所示图1文章分析框架
一
获得高质量LoF变异数据集
gnomAD数据集来自于常见的成人期发病疾病的case-control研究,这些疾病包括心血管疾病、2型糖尿病、精神疾病等。该项目剔除了低测序质量的样本、二级亲属以内的样本、已知患有严重早发疾病的样本及其一级亲属样本、未充分知情同意的样本后,最终获得,全外显子组序列数据和15,全基因组序列数据。这些样本的原始测序数据均经过了统一的分析处理过程。这些样本中的变异数据,经过随机森林方法过滤,得到了高质量的变异数据集。
从变异数据中选择stop-gained、frameshift和经典剪接突变,使用自主开发的LOFTEE软件包过滤并去除注释错误的变异——经预测可以逃脱NMD的变异(如末端截短变异、被救起的剪接变异等)——得到,个高度可信的pLoF变异。鉴于真正的纯合LOF变异非常稀有,经进一步的过滤和深度的人工审编,最终确定了1,个可能耐受双等位基因失活的基因,其中包含2,个高度可信的变异。
二
计算LoF不耐受性程度
综合基因的甲基化程度、碱基水平的覆盖度校正和LOFTEE模型,研究者提供了一个优化的突变模型来预测中性条件下变异的期望水平(图2)。首先研究者将全基因组CpG位点的甲基化程度划分成高中低三个水平(图2a),通过突变率计算[1],研究者发现不同甲基化水平的CpG位点,其突变率存在明显差异(图2b)。另外,CpG和非CpG的突变率也分别与其观测比例存在相关性(图2c),在进行了突变率校正后,得到了高覆盖度时期望值与观测值的关联模型(图2d);观测值/期望值比值遵循对数趋势(图2e),所以当覆盖度中值低于40X时,需要据此修正最终期望模型中的低覆盖碱基。对于每个转录本,将观察到的变异数量与基于上述模型的期望数量绘制成图(图2f-h分别为同义突变、错义突变、pLoF突变),并计算出线性回归系数。在这个模型下,可以看出观测到的同义突变个数与期望值非常接近(r=0.),说明此期望预测模型是准确合理的。
基于此模型和gnomAD的大样本数据集,研究者使用观测与期望比值(observed/expectedratio,o/eratio)这个连续变量来评估LoF变异的不耐受程度,并围绕比值计算其置信区间,将置信区间的90%上边界作为LOEUF(loss-of-functionobserved/expectedupperboundfraction)。使用上边界意味着LOEUF是一个保守的度量标准:低LOEUF值的基因很可能不耐受pLoF变异导致被自然选择清除,高LOEUF值意味着基因对pLOF耐受或者由于基因太短而无法对o/e进行准确估计。在后续的分析中,研究者对编码区长度进行了校正,而且过滤掉理论上少于10个pLoF变异的基因。然而,即使是在gnomAD这种规模的样本量下,基因组上仍有约30%的编码基因,由于基因长度而导致LOEUF效能不足。
图2不同功能类型变异的减少程度
三、讨论
总览全文,笔者认为从大规模人群遗传变异中分析基因功能是比较有挑战的。研究人员要注意样本数量大小、样本组成、序列组成差异、基因长度对变异的影响,还要