阿尔茨海默症(AD)和帕金森病(PD)是两种最常见的神经退行性疾病。尽管全基因组关联研究(GWAS)已确定了多个潜在的基因风险位点。然而大多数风险位点都位于非编码区,因此尚不清楚这些基因是否与疾病功能相关,亦或者是与其他基因有关联。
单核苷酸多态性(简称SNPs)主要是指在基因组水平上由单个核苷酸的变异(碱基的转换或颠换、插入或缺失)所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。大多数的功能性非编码SNPs可以通过干扰转录因子的结合和调控元件的功能来改变基因的表达,从而来发挥其作用。值得注意的是,这些调控元件具有高度的细胞类型特异性,这提示SNPs也有细胞类型特异性。因此需要在正确的组织和区域背景下对每一种脑细胞类型中活跃的调节元件进行分类和功能揭示,进而帮助阐明常见神经退行性疾病分子发病机制中的基因风险位点功能的重要性。
在于年10月26日以Single-cellepigenomicanalysesimplicatecandidatecausalvariantsatinheritedrisklociforAlzheimer’sandParkinson’sdiseases为题发表于NatureGenetics的文章中,美国斯坦福大学医学院的ThomasJ.Montine教授和HowardY.Chang教授合作团队旨在通过单细胞染色质图谱来鉴定细胞类型特异性调控元件,并应用机械学习来帮助预测AD和PD的功能性SNPs。研究者确定了AD和PD中几个非编码GWAS位点的靶基因和细胞类型;这些数据和技术也为其他神经系统疾病中的应用提供了指导,使我们能够更全面地了解遗传性非编码变异在疾病中的作用。
染色质的可及性(chromatinaccessibility)通常理解为开放染色质(openchromatin),指致密的核小体结构被破坏后,启动子、增强子、绝缘子、沉默子等顺式调控元件和反式作用因子可以接近的区域,与真核生物的转录调控密切相关。早在年,斯坦福大学医学院的的WilliamJ.Greenleaf教授和HowardY.Chang教授实验室合作开发了一种可以用于研究染色质可及性的方法,称为AssayforTransposase-AccessibleChromatinwithhighthroughputsequencing,即转座酶可接近性染色质测序技术,或转座酶可及性染色质测序技术,亦或染色质开放性测序技术,简称ATAC-seq。其原理是通过转座酶Tn5容易结合在开放染色质的特性,然后对Tn5酶捕获到的DNA序列进行测序。与其他技术(例如研究相似染色质特征的FAIRE-Seq或DNase-Seq)相比,ATAC-Seq的主要优势在于该测定所需的细胞数量更少,并且其两步法操作相对简单。
那么,鉴于ATAC-Seq的强大优势,本文中,首先,作者应用ATAC-Seq绘制了39名认知正常个体的新皮层、海马体、黑质、纹状体等脑解剖区样本的大染色质图谱,进而来研究非编码基因组在神经退行性疾病中的作用(图1)。这些大ATAC-seq数据,即峰值(peaks)表明了染色质可及性的区域差异。
图1本文所研究的大脑区域(左)和脑区样本的ATAC-Seq峰值(右)
(图片引自:Corces,M.R.,etal..NatGenet;52:–)
图2样本的scATAC–seq数据
(图片引自:Corces,M.R.,etal..NatGenet;52:–)
不同脑区的不同细胞的染色质可及性如何呢?于是作者对样本的7万多个单细胞进行了染色质可及性分析,即单细胞ATAC-Seq(简称scATAC-Seq),并锁定了24个细胞类群(cluster),主要包括兴奋性神经元、抑制性神经元、小胶质细胞、少突胶质细胞、星形胶质细胞和少突细胞祖细胞(OPCs)(图2-3)。重要的是,scATAC-Seq分析表明了特异性的远端/内含子峰的富集,启动子峰的缺失,这与远端调控元件在细胞类型特异性基因调控中的作用是一致的(图3)。另外,结果也提示了scATAC-Seq的实用性,特别是考虑到,当从含有多种不同细胞类型的大块组织中鉴定出特定细胞类型的峰值时,scATAC-Seq具有明显的优越性。
图3染色质可及性热图(左)和调节元件基序分析(右)
(图片引自:Corces,M.R.,etal..NatGenet;52:–)
为了进一步研究是哪些转录因子可能负责建立和维持这些细胞类型特异性的调控程序。作者则对每种细胞类型的峰值进行了基序富集分析,即结构域分析。结果显示了多个已知的细胞类型识别驱动因素,如少突细胞中SOX9和SOX10的基序,OPCs中的ASCL1的基序;以及转录因子SPI1和JUN/FOS分别在小胶质细胞和神经元中的富集(图3)。这些数据进一步表明了ATAC-seq细胞类型特异性,特别是鉴定了胶质细胞(如星形胶质细胞和OPCs)的脑区域的异质性。
图个“神经元类群”
(图片引自:Corces,M.R.,etal..NatGenet;52:–)
考虑到神经元类型和功能的多样性,研究者想进一步细化了scATAC-seq数据。批次校正分析显示了30个“神经元类群”,每个类群则表示了一种独特的神经元细胞类型或细胞状态,并确定了神经元细胞类特异性的峰值、基因、以及转录因子活性(图5)。有趣的是,数据分析确定了在一种PD中丢失的关键细胞类型,即黑质多巴胺能神经元类群,确切来讲是酪氨酸羟化酶阳性多巴胺能神经元群(图5)。
图5神经元特异性GWASSNPs的连锁不平衡分析
(图片引自:Corces,M.R.,etal..NatGenet;52:–)
以上数据充分表明了scATAC-seq数据的细胞类型特异性,那么接下来,在染色质可及性的特定细胞类型区域是否富集了与神经退行性疾病相关的SNPs?细胞特异性连锁不平衡分析显示,AD的小胶质细胞峰值集中,每个SNP的遗传概率都有显著的增加,而PD的任何细胞类型中,无SNP遗传概率的显著富集,这可能是因为PD的细胞比AD更加复杂(图5)。换句话说,在任何的AD或PD神经元类群的峰值区域中均未发现SNPs的显著富集。
因此,鉴于上述结果,作者想进一步研究每个GWAS位点的靶基因。为此,作者使用HiChIP标记乙酰化组蛋白H3赖氨酸27(即H3K27ac),来标记活性的增强子和启动子,从而来绘制以增强子为中心的染色质三维构象。数据分析确定了各脑区的共个染色质三维交互;67.4%的交互有ATAC-seq峰值出现在两个信号锚定序列,29.2%有ATAC-seq峰值出现在一个信号锚定序列,剩余的3.4%则无ATAC-seq峰值的重叠。这些数据表明:scATAC-seq可以精准定位GWAS多态性的细胞靶点,从而让GWASSNPs与下游靶基因相关联起来。
图6应用多层次的多组方法(左)和机械学习(右)来研究功能性的非编码GWAS多态性
(图片引自:Corces,M.R.,etal..NatGenet;52:–)
图7应用多层次的多组方法和机械学习来研究AD和PD中的功能性非编码GWAS多态性
(图片引自:Corces,M.R.,etal..NatGenet;52:–)
为了进一步解释GWAS多态性的功能效应,首先作者构建了一个AD和PD疾病相关的SNPs库,共个SNPs,其中个SNPs分布在与AD相关的44个基因座上,个则分布在与PD相关的86个基因座上,其中34个SNPs出现在两种疾病的同一个基因座上。然后作者开发了一种多层次的多组方法来预测功能性的非编码GWAS多态性:先将这些SNPs与ATAC-Seq的染色质可及性峰值进行重叠分析(Tier3),再鉴定出可能影响调控相互作用的SNPs(Tier2),最后鉴定出可能直接影响转录因子结合的SNPs(Tier1)(图6-7);并应用了支持向量机和等位基因不平衡分析,最终确定了可能参与AD和PD的基因和分子过程,以及那些参与非编码调控的GWAS位点。这些也说明多层次的多组方法能够预测功能性的非编码SNPs。
图8AD和PD中PICALM(左)、SLC24A(右)的功能性非编码SNPs分析
(图片引自:Corces,M.R.,etal..NatGenet;52:–)
紧接着,作者重点