发表时间:Jan15,
发表期刊:NaturePlants
通讯作者:JeffreyRoss-Ibarra(加州大学戴维斯分校进化与生态学系,研究方向为玉米的进化遗传学);MichaelA.Gore(康奈尔大学植物育种与遗传学系,研究方向为数量遗传学与基因组学、高通量表型组学)
/TOLEARN/
一般重测序研究围绕种群进化历史、重要性状定位(如同期发表的一篇来自河南大学王学路团队针对大豆根瘤菌的研究)、适应性进化(选择位点),该研究从有害性突变的角度展开。文章通过对份高粱重测序以及利用已发表的份玉米数据,比较了高粱和玉米在有害性突变特征上的差异,发现玉米符合驯化代价假说,即驯化过程积累了更多的有害性负载,而高粱与之相反,即野生高粱中拥有更高的遗传符合(年水稻的分析结果支持驯化代价假说,上个月发表在NatureCommunications大豆研究则支持了高粱的结果),以及分析了这种差异与授粉系统、基因组多倍化等的关系,不同物种之间的群体基因组比较是目前比较少见但很有价值和意义的分析。在此基础上,提出了基于CNN的有害性突变预测模型,虽然准确率只有0.5,但这种利用生物大数据和机器学习模型解读生物学或者进化问题的尝试是很有前瞻性,尤其是海量大数据井喷的现在,如何从错综复杂的各类型数据中总结挖掘出有价值的线索,是生物信息学领域需要思考的方向。
/ABSTRACT/
高粱和玉米有着非常近的进化关系,这为比较基因组学提供了很好的前提。为了对这两个物种的基因组变异进行大规模比较,我们分析了从个高粱品系全基因组重测序中鉴定出的万个SNP,以及先前在个玉米中鉴定出的万个SNP。两种物种中有害的突变普遍存在于着丝粒区域,富集在非共线基因并且以低等位基因频率存在。高粱和玉米之间有害性负担的比较显示,与玉米相反,高粱与驯化成本假说相背离,驯化成本(CostofDomestication)认为与野生群体相比,驯化群体中的有害性负担更高。此外,高粱和玉米种群遗传统计数据被用来预测基因有害指数,其准确性大于0.5。这项研究代表了了解高粱有害变异的进化动力学的关键一步,并提供了一个比较基因组学框架,以开始对这些变异进行优先排序,以便通过基因组编辑和育种进行去除。
/MAIN/
高粱(Sorghumbicolor)和玉米(Zeamays)都属于禾本科,经常作为植物比较基因组学的模型系统。他们的共同禾本科祖先经历了约9,万年前的全基因组复制事件,而第二次玉米特有的全基因组复制与万年前与高粱的分化紧密相关。考古植物学研究支持在苏丹东部约公元前年发生的一次高粱驯化事件,而遗传学研究则支持在西非建立一个潜在的第二个独立的驯化中心。相反,玉米大约是在年前从墨西哥中部的巴尔萨斯河谷的大刍草驯化的。虽然这两个物种之间的一些直系同源基因在驯化过程中经历了平行选择,但大多数与驯化相关的基因似乎都不重合。由于驯化瓶颈,玉米经历了有效种群数量的下降,与大刍草相比,增加了驯化中有害等位基因负荷。高粱也有证据表明遗传瓶颈或种群数量减少会降低地方品种的核苷酸多样性。
高粱具有雌雄同体的花序,从而使其主要自花授粉。驯化高粱估计异交率仅为7%至20%,而野生或杂草型高粱的异交率往往更高(高达70%)。相反,玉米及其野生祖先大刍草是雌雄同株的,异交率超过90%。在这项研究中,我们进行了从野生到驯化高粱和玉米功能变异的联合分析,比较这两个密切相关物种在不同驯化历史和交配系统中的有害突变积累。
首先使用全基因组重测序对个高粱品系的常规遗传变异水平和模式进行表征。这些种质代表了广泛的遗传和表型多样性,包括野生近缘种,地方品种和改良品种。最后获得了高质量的核心变异集,包括万个SNP和万个indel。
从左到右依次为bicolor,durra,guinea,caudatum和kafir
高粱先前已定义了五种形态形式(植物小种):bicolor,durra,guinea,caudatum和kafir。bicolor是第一个被驯化的群体,而其余四个“现代”种群则表现出对脱粒谷物的平行进化。不同群体之间的LD衰变率略有差异,更显着的等位基因频率分化概括了高粱在不同环境中的驯化和适应。
不同群体的等位基因频率分布
为了进行比较分析,使用了基因组进化和氨基酸保守性建模对高粱和玉米基因组中的候选有害突变进行鉴定。基因组进化速率分析(GERP)确定了高粱基因组的64.9Mb(9.49%)受到进化限制(GERP0)。在玉米中,该值增加至Mb,但仅占其基因组的4.16%。作为补充,SIFT用来预测氨基酸置换对玉米和高粱的蛋白质功能影响。在高粱中,在外显子中鉴定出的个SNP中,有19%(87,)被认为是有害的(SIFT0.05)。同样,玉米中有8%()的外显子SNP被认为是有害的。正如预期的那样,我们发现在高粱(44%)和玉米(53%)中编码区域内部的很大一部分变体也受到进化限制(GERP0)。
根据SIFT和GERP得分将突变分为五类:有害(GERP≥2,SIFT0.05),非保守有害(GERP2,SIFT0.05),终止突变(获的或丢失),可耐受(非同义,SIFT>0.05)和同义突变。与玉米相似,高粱衍生等位基因频谱显示,与无害变体相比,有害突变类别表现出过多的低频。与玉米一样,有害突变也富集在高粱着丝粒区域,在该区域重组受到抑制,使生物体难以清除这些变异。
有害性突变鉴定流程(SIFT和GERP)
玉米和高粱从同一祖先分歧后,大约在万年前经历了全基因组复制。一旦两个玉米亚基因组合并到一个核中,每个重复的基因对都开始有一个拷贝丢失。我们调查了这两个物种之间的基因丢失和共线状态是否与有害变异的积累有关。我们发现,玉米和高粱中五种分类基因中的突变比例丢失和非丢失基因之间的比例相似,但两种植物的非共线基因中的有害变体的数量明显更高。潜在的重要性较低的非共线基因在两个物种中均携带较高水平的有害变异。
文章研究了玉米和高粱中野生、地方品种和改良品系的有害负载。驯化成本假说认为,驯化和作物改良过程可能导致基因组中有害变异数量的增加。玉米中的结果与以前的发现相符,与野生大刍草相比,改良玉米中总体有害等位基因更多。然而,在高粱中,野生近缘种的有害等位基因积累最多。当独立地分析每个高粱群体时,野生种最大,其次是bicolor群体,现代适应农业气候的群体表现出最低的负担。这种偏离可以部分解释为高粱(自交)和玉米(异交)交配系统的固有差异,特别是驯化后高粱向高自交率的过渡。
值得注意的是,包含驯化后自交率提高的模拟发现与野生品系相比,地方品种的遗传负荷降低,这与我们对数据的解释一致。这种负担上的差异并不是由野生高粱中较低的遗传多样性所驱动的,因为它们遵循预期的模式(野生地方品种改良)。许多研究人员强调了高粱驯化过程的复杂性,包括从野生亲缘种渗入降低现代品系遗传负载的潜力。简单的基于树的分析证实了某些地方品种受到基因流的证据;然而,这些品系的总遗传负载并不低于缺乏渗入证据的地方品种。尽管高粱复杂的驯化历史也可能导致了野生高粱与栽培高粱之间负载的差异,但我们的模拟表明,交配系统可能发挥了重要作用。我们还观察到了在正向选择位点有害变异搭便车的证据。具体而言,具有强正向选择证据的窗口(根据iHS),最高5%)的有害/无害变异比率要明显高得多。
鉴于有监督的机器学习最近应用于人口遗传学和基因组学推断的发展,我们评估了卷积神经网络(CNN)在建立能够预测高粱有害指标(平均SIFT分数)和同态的进化模型中的功效基因。我们将高粱基因组分成多个片段,每个基因作为质心,每个窗口计算12个特征,其中四个特征来自玉米。我们纳入了功能重要性,玉米基因的共线性和拷贝丢失,基因表达差异水平以及几个分子进化统计数据的预测因子。
CNN框架
通过该模型的实施,我们预测了每个基因的平均SIFT得分,该统计数据反映了基因突变可能有害的可能性。我们的模型的预测精度为0.53,优于线性回归模型10%。个体特征的重要性通过留一变量排除法(leave-one-variable-outapproach)进行了评估。我们发现四个功能最具影响力。其中平均GERP得分和编码序列(CDS)中的变异数量很重要,因为它们均反映了一个位点纯化选择的强度。其他两个有影响的特征是高粱和玉米同源基因中的基因表达差异,这支持了以前在玉米中的研究,表达失调与稀有等位基因负担相关。我们还使用该模型预测每个窗口中焦点基因的共线状态,曲线下面积(AUC)约为0.9。与玉米相关的两个特征最为相关:ssw,一种使用短k-mer比对的两个基因组之间的保守性度量,以及玉米核苷酸多样性(π)。与可能非必需的非同义基因相比,玉米同义基因组区域具有较低的核苷酸多样性。因此,核苷酸多样性可以清楚地指示哪些基因是共线的或非共线的,而其他模型特征可以确定基因是发生丢失的(fractionated)还是没有(non-fractionated)。
/SUMMARY/
总之,我们对野生到驯化的高粱和玉米基因组变异进行了联合变异分析,以突出它们在遗传负荷积累方面的差异。我们还使用有监督的机器学习构建和测试了进化模型,该模型利用了这两个物种之间的基因组共线关系。我们设想,类似的策略可以改善特征相对较少的物种的整个基因组的功能注释和预测,深度学习模型最初在进化相关的模型物种上进行训练,这些物种具有广泛的实验验证数据(例如甲基化,组蛋白标记和ATAC-seq)。总体而言,我们构建了高粱的基因组图谱,可用于支持全基因组关联研究(GWAS)结果,支持方差成分估计并在比较基因组学框架中提供全基因组预测信息。
/FORMORE/
Nat.Plants
重磅!最专业详实的水稻起源传播基因组证据
深度解读
基于亚洲栽培稻及其祖先基因组结构变异的进化基因组学分析
研究长文
癌症基因组结构变异的综合检测与分析
EricWdy不来喜欢一下嘛