结构变异(SV),包括倒位、缺失、重复和易位,是大多数癌症基因组的标志。常发性SV的发现及其对基因结构和表达的影响极大提高了我们对肿瘤发生的认识。很多致癌基因已经被明确是常发性易位的产物,这已为药物治疗提供了成功靶标,特别是针对血液系统恶性肿瘤。尽管SV很重要,但如何鉴定仍然具有挑战性。
过去,G带核型分析一直是主要鉴定方法,且在临床中经常使用。然而,这种低分辨率和低通量的方法不能描述发生大量重排的癌症基因组。微阵列是检测遗传成分获得和丢失的另一种常用方法,但并不能提供精确的重排位置,也无法检测平衡重排。诸如荧光原位杂交(FISH)和PCR方法在临床中也广泛被使用。然而,这些方法需要重排的先验知识,因此并不适合从头SV检测。最近,基于高通量测序的方法,如RNA测序(RNA-seq)和全基因组测序(WGS),已成为鉴定SV的有效方法;这些方法可以鉴定高精度的基因融合和基因组重排。尽管如此,但这些基于短读序的方法不能有效地检测基因组中重复区域的SV,并且以单倍型方式确定复杂SV的能力受限。
本文通过结合多种技术,包括WGS、光学图谱(Irys-BionanoGenomics)和高通量染色体构象捕获(Hi-C)来全面检测SV。此外,开发了一种新算法,利用Hi-C数据检测全基因组SV。通过整合来自不同平台的结果,在八个人类癌细胞系中整理了一系列高置信度的SV(表1)。观察到光学图谱和Hi-C在检测大尺度、复杂的结构改变方面表现优异,而高覆盖率的WGS擅长于识别具有高精度的SV。我们鉴定了由于结构基因组变异导致的三维基因组结构改变的许多案例,比如拓扑缔合结构域(TAD)的形成或融合,表明结构变异在肿瘤发生中基因错误调节中的关键作用。
一种用于SV检测的整合方法为了评估不同方法检测SV的能力,我们比较了8种癌细胞系和1种核型正常对照(GM)的WGS、光学图谱和Hi-C数据。我们在7个癌细胞系中产生了平均深度超过30×的WGS数据,并分别从之前的研究和Platinum基因组数据集下载了LNCaP和GM细胞系的数据。我们搭建了一个内部分析流程,集成了LUMPY、Delly和Control-FREEC软件的结果,用于初始检测SV,然后进行数据过滤。接下来,我们在这9个细胞系中绘制光学图谱,平均深度约为×。我们使用RefAligner(BionanoGenomics)和流程进行从头组装和SV检测,我们设计了一个内部方法来进一步进行数据过滤。最后,我们在14个癌细胞系中进行了Hi-C实验,并分析了另外21个已公布的数据。我们开发了一种新算法,利用Hi-C数据识别重排事件,包括易位、反转、缺失和串联重复。比较和合并来自不同平台的结果,我们鉴定了数千个插入和缺失(50bp)、数百个串联重复和染色体间易位,以及数十个反转。我们整理了一个至少两种方法预测到的高可信度SV列表。图1b中展示了一个例子,其中所有三种方法都检测到了Caki2细胞中染色体2和3之间的易位。通过观察同一区域中DNA复制时序曲线的显着变化,也验证了这种易位。最后,我们观察到癌细胞基因组与正常细胞相比有更多的重排事件,如环状基因组结构谱所示(图1c)。图1:检测癌症基因组中SV的总体策略a.SV检测、验证和功能分析流程。b.Caki2细胞系中不同方法检测到的相同易位(TL)的实例(hg38参考基因组位置:chr2:和chr3:,)。c.与核型正常的GM细胞相比,癌症基因组有更多的CNV和易位。从外圈到内圈依次是染色体坐标、拷贝数、重复(红色)和缺失(蓝色),以及包括倒位、染色体间TL和未分类的重排。CNV圈中的向外红色条表示拷贝数增加(2,2-8个拷贝);向内的蓝色条表示拷贝丢失(2,0-2拷贝)。WGS以50kb窗口分析CNV。通过WGS、Irys和Hi-C中至少两种方法检测重复、缺失和易位。使用Hi-C数据检测大规模重排有研究报告了Hi-C数据中异常的染色体间相互作用,并提出这些信号是SV的结果。然而,为了确定断点,他们主要依靠视觉检测判断。最近开发了软件工具来识别Hi-C数据集中的拷贝数变化或染色体间易位。然而,尚未开发出可以使用Hi-C进行全范围SV的全基因组检测算法,包括缺失、倒位、串联重复和染色体间易位。在核型正常细胞的Hi-C实验中,染色体间相互作用很少见(图2a左图)。然而癌细胞与此不同,例如在Caki2癌细胞中,观察到强烈的染色体间的相互作用(图2a右图),这可能是由于染色体6和8的融合。目前的挑战在于确定异常增强的信号是否是由于重排或三维基因组结构的变异导致的。我们首先开发了正常3D基因组结构特征的概率模型,包括基因座、TAD、A/B区室之间的基因组距离,以及小染色体和亚端粒区域之间增加的相互作用。重排过程中,两个重排区域是遗传融合的,这改变了基因座之间的线性距离,导致局部聚类偏离预期的相互作用频率,这种模式可用于检测SV(图2a,b)。为了系统地鉴定到这个特征,我们开发了一种迭代方法来精确定位交互频率的局部聚类,表明重排的存在。该方法可以逐渐减小区块大小,将断点精度提高到1kb。图2:利用Hi-C检测癌症基因组结构变异a,b.使用Hi-C数据检测染色体间(a)和染色体内(b)的重排(由箭头标记标记)。在图(a)中,GM热图以kb分辨率显示;Caki2以1Mb分辨率显示。c.通过FISH验证的K细胞中的复杂易位(chr6-chr16-chr6)。使用20个独立的中期细胞核进行FISH验证实验的类似结果。比例尺(白色)代表5μM。d.Hi-C在29个癌症基因组和9个正常基因组中检测到的染色体间和染色体内重排数量。e.易位(TL)对复制时间(RT)影响的一个例子。当比对到参考基因组时,SK-N-MC的chr5和chr10的RT曲线在TL断点处显示突然变化(←,左图),并且在癌症基因组中平滑地连接(右图SK-N-MC中不存在正常的chr10)。实心黑色(chr10)和红色(chr5)线表示平滑RT。由于RT实验是为验证目的而设计的,因此进行了一次重复。我们首先使用充分表征的慢性髓性白血病细胞系(K)评估我们的算法,并将结果与之前公布的核型进行比较。在Hi-C预测得到的19个重排中,11个可以被验证,其余8个是新发现的。由于两个独立实验室进行的两个重复实验中都发现了这8个事件,因此它们不太可能是克隆进化产物。其中一些事件是复杂的重排,比如在chr16和chr6的两个不同区域之间(图2c)。另一种是涉及chr1、6、18和20的重排。我们进行了FISH实验来验证新预测得到的易位,利用Hi-C数据预测得到的19个易位中有18个通过FISH或之前的核型分析得到验证,这说明我们的算法可以识别具有高特异性的大规模结构变异SV。为了进一步评估算法,我们在源自Tc1小鼠的ES细胞中进行了Hi-C研究,其被设计为携带人chr21的拷贝。在建立该细胞系的过程中,人的21号染色体受到γ辐射,导致大量的基因组重排,其中一部分之前已经通过PCR和Sanger测序得到鉴定。我们通过二次采样评估了我们的算法在各种测序深度的灵敏度,并发现该算法可以实现具有良好的灵敏度,即便只有万到0万条读序。大约1亿对测序读序可以达到稳定水平,灵敏度为90%。当至少有0万个读序可用时,预测的断点在内部是一致的。我们注意到有时Hi-C和WGS在相同区域找到断点,但报告不同的链型结构。这种差异通常涉及到复杂事件,其中Hi-C检测较大规模的SV,WGS检测较小的SV。为了评估样品异质性的影响,我们通过组合来自不同比例的K和GM细胞的Hi-C数据来模拟混合肿瘤/正常样品,同时保持总测序深度为1亿条读序。我们观察到即使肿瘤数据比例低至30%也只损失有限的灵敏度,这表明基于Hi-C的SV鉴定的性能在中等样品异质性条件下是稳健的。最后,将Hi-C分析扩展到27个癌细胞系和9个核型正常细胞系(图2d)。平均找到了癌细胞中的25次重排,并且在正常细胞中几乎没有这样的事件,染色体间与染色体内重排率大约为2:1(在所有细胞系中为:)。算法似乎主要识别大的SV,只有4.3%的染色体内SVs的大小小于2Mb,这很可能是因为目前很难将结构变化导致的强Hi-C信号与同一TAD内的强局部相互作用信号区分开来。通过复制时间来确定Hi-C断点将Hi-C定义的断点与改变的DNA复制时间(RT)作为独立的功能测试进行比较。真核基因组通过原始簇的同步激发进行复制,这些原子簇一起产生多复制子结构域,每个复制子结构域在细胞周期的S期期间在短的(45-60分钟)突发中完成复制。复制时序的全基因组分析显示这些结构域可以在S期的不同时间复制,相邻的早期和后期复制域被复制时间区域转换打断。因此,融合早期和晚期复制结构域的易位可导致晚期复制结构域的早期复制和/或早期复制结构域的延迟复制。当比对到参考基因组时,这些变化表现为复制时序曲线的突然变化,其有可能验证断点(图2e)。Hi-C方法在10个细胞系中鉴定了个易位(精度为10kb或kb)。其中,75个易位与复制时间的突然变化有关。由于仅在不同时间复制的结构域之间的易位发生突变,利用48个非癌细胞系和分化中间体的复制时间,我们将基因组分为组成型早期(CE)复制、组成型晚期(CL)复制的区域,以及在发育过程中切换复制时间的区域(S)。在Hi-C检测到的个易位中,9个是CE到CL融合,32个是CE到CE或CL到CL的融合。正如预期的那样,在CE到CL中确定了复制时间的突然变化,其频率(~67%)远高于CE到CE或CL到CL融合(~13%)。观察到CE和CE之间的易位频率比偶然预期的高三倍,这与先前报道将染色体断点与早期复制和更高转录活性相关联的报道一致。总的来说,复制时间可以提供特定类别的易位事件的功能验证,尤其是融合在S阶段不同时间复制的区域。跨平台比较和SV检测的整合为了系统地评估不同平台的性能,比较了Hi-C、光学作图、WGS、融合转录本、核型分析和配对末端标签测序(PET-seq)预测的SV。将通过至少两种不同方法检测到的重排定义为高置信度SV。为了近似灵敏度和特异性,将方法的贡献定义为通过该方法检测的高置信度SV的分数,重叠率是指一种方法检测的SV与高置信度SV重叠的比例。总的来说,观察到所有染色体间易位中的20%可以通过至少两个平台鉴定。与先前已知的每个谱系中的核型相比,许多观察到的易位是新的。例如,本研究中发现的T47D细胞中26个易位中有14个以前没有报道过。选择其中8个用于进一步验证,所有都通过PCR验证。Hi-C是一种具有显着贡献和高重叠率(48%和66%)的方法,并且与染色体内SV(43%和71%)相比,染色体间易位(53%和66%)具有更好的性能。Hi-C、光学图谱和WGS的集成将总体贡献提高到90%(各自贡献分别为48%、40%和64%)。核型分析具有高重叠率(88%),对染色体间易位的贡献相对较高(56%)。接下来,将相同细胞系中不同平台的结果合并为最终的高置信度SV列表,并使用可用的最高分辨率细化断点。更重要的是,通过WGS和光学映射检测了一类未分类的大尺度的染色体内重排SV类型。例如,Irys在T47D细胞中报道了24个未分类的染色体内重排(≥5Mb)。通过将其与Hi-C或WGS数据进行比较,我们能够识别其中9种(37.5%)的SV类型。还利用光学图谱和每种癌细胞系中的WGS鉴定了数千种遗传物质的获得或丢失。光学图谱检测到比WGS更少但更大的删除。在T47D细胞中,WGS检测到个缺失,中值大小为bp,而Irys检测到个缺失,中位大小为bp(图3a,b)。Irys错过了85%的WGS检测到的缺失中的85%,其中78%1kb。这些可能会被光学图谱遗漏,因为它的分辨率受到两个刻痕位置之间的最小距离的限制。由Irys预测的3%的缺失与多个较小的WGS缺失重叠,并且在那些情况下,这些WGS缺失的总大小接近于Irys检测的缺失。WGS未捕获58%的Irys检测到的缺失,我们测试了Irys检测到的缺失子集,并且通过PCR验证了87.5%。此外,光学图谱可以识别未映射WGS读取的重复区域内的缺失(图3c)和断点周围具有较低可映射性的区域。我们在癌细胞系中检测到许多MB级别的缺失。相反,我们在GM细胞中发现的最大缺失是与潜在的V(D)J重组相关的kb事件。我们发现WGS、Irys和Hi-C可以检测不同组的染色体间和大规模重排。除了可映射性之外,我们观察到Hi-C和Irys在检测与不可对接的连接相关的重排方面特别有用,这可能因为chr3太短而无法识别,非模板化向基因组添加碱基或外源DNA序列,比如来自病毒的DNA序列。图3:通过不同方法检测的SV的比较
a.通过光学图谱和WGS检测的T47D细胞中缺失的重叠。b.通过光学图谱(n=)和WGS(n=,P=1.33×10-36,双侧Wilcoxon秩和检验)检测到的缺失大小分布。c.光学图谱检测到chrX中的6kb缺失:96,,-96,,,WGS没有检测到该缺失。d.通过光学图谱、Hi-C和WGS的整合,重建K细胞中衍生染色体的复杂局部结构。重排的等位基因由5个区域组成:A(chr13:80.5-80.8Mb)、B(chr13:89.7-93.3Mb)、C(chr13:.8-Mb)、D(chr9:.7-.3Mb)和不可对称的区域。此外,B由三个较小的区域(图中的B1,B2和B3)组成。我们通过将几个光学图谱重叠点拼接在一起来重建该区域中基因组结构的全局视图(中图)。可以用Hi-C数据验证光学基因组图谱的每个连接点。WGS数据可以为特定断点连接提供分辨率断点。WGS中的每一行代表一对读序。WGS读序支持断点标记为紫色(正向链)和红色(反向链)。e.使用Hi-C重建SV策略。如果两个易位区域直接连接(→)或者如果它们不是紧邻(*)连接,而是与相同的重排等位基因连接,则Hi-C显示增加的相互作用频率。总之,我们发现结合互补方法的综合方法对于更全面地了解癌症基因组的结构变异至关重要(表2)。如图3d所示,我们使用光学图谱来对推测的局部结构进行线程化,WGS来确定断点,并利用Hi-C数据来验证相同等位基因上几个相邻重排的连锁(图3e)。更好估计人类基因组中的缺口注意到光学图谱可用于更好地估计间隙区域的大小,当我们使用hg19参考基因组,我们发现了许多多个样品,包括GM,存在大量的缺失,但是当我们用一个较新版本的参考基因组(GRCh38)时,这些缺失会消失。进一步的研究表明,hg19中鉴定的许多此类“缺失”由参考基因组中的缺口组成,并且这些缺口的大小已在GRCh38中得到纠正。GRCh38中的校正大小与我们的预测非常相似。然而,我们注意到即使在GRCh38中仍然存在几个这样的“缺失”,这表明这些间隙大小可以进一步细化或者代表群体中的多态性。我们将我们的结果与最近的两项研究进行了比较,这两项研究也重新估计了GRCh38参考基因组中的基因组缺口。虽然总体而言我们的数据显示与先前结果一致,但我们观察到由于可能的群体多态性而产生的差异,包括间隙区域,其中我们报道了9种不同的单个细胞系中bp至1,bp的大小范围。(Pendleton等人的估计值为1,bp,而Seo等人的估计值分别为57和bp。)SV在癌症基因组中的功能性结果为了研究SV的功能影响,我们首先分析了11种癌细胞系的RNA-seq数据,以鉴定融合基因转录物。我们检测到许多RNA-seq读序的两端比对到不同的染色体,跨越本研究中鉴定到的易位断点。我们还发现了许多涉及真正致癌基因的新型融合转录物,例如T47D细胞中的EVI1-CFAP70。这些基因融合事件是否有助于致癌潜力还有待进一步研究。CNA代表癌症中的另一类遗传变异。我们分析了T47D乳腺癌细胞系中的CNA,并将其与名乳腺癌患者的WGS数据进行了比较。在T47D癌细胞中,患者中前十位经常突变的致癌基因中的八个也被扩增;肿瘤抑制基因如ATRX和CDKN1B显示拷贝丢失(图4a),表明T47D细胞反映了乳腺癌中的CNA情况。我们进一步比较了T47D和人乳腺上皮细胞(HMECs)中的RNA-seq数据,发现杂合性缺失(LOH)和纯合缺失导致基因表达显着降低,这也在其他癌细胞系中观察到。我们发现25个COSMIC(癌症中的体细胞突变目录)肿瘤相关基因的外显子缺失,并且大多数(76%)显示转录减少。我们注意到已知致癌基因(如MYC)的广泛扩增和细胞周期检查点基因的丢失(如CDKN2A和CDKN2B)。我们在癌症细胞中发现超过个高度扩增(≥5个拷贝)或缺失的基因,这些基因未在COSMIC中报道,表明其在癌症中的潜在作用。图4:SV对增强子的影响a.RefSeq基因的T47D细胞中的拷贝数变化(按拷贝数排序)。如果它们显示出扩增(红点)或缺失(黄点),则标记在乳腺癌中经常突变的基因。该图的右侧展示了基因拷贝数的密度图。b.T47D中约3.4-kb的缺失与HMEC特异性增强子重叠。来自HMEC的Hi-C数据表明缺失的增强子和基因GNB4的启动子之间存在相互作用。通过Hi-C数据在GM细胞中也报道了该增强子-启动子连接。根据WGS数据,局部区域被扩增并在T47D细胞中具有六个拷贝,但增强子在六个拷贝中的五个中被删除。c.与HMEC相比,T47D中该区域的所有基因都可能由于局部扩增而上调,除了GNB4,其表达降低了约50%。d.通过GenomeRegulatoryArchitecture工具对缺失的增强子(n=)进行功能途径分析。FDR,错误发现率。ESR1,雌激素受体1.e.具有缺失的增强子的基因显示降低的表达水平。排除外显子缺失或拷贝数丢失的基因;通过Hi-C数据将个基因连接至至少一个缺失的增强子(绿色),并将个基因连接至不显示缺失的增强子(灰色)。癌症和正常细胞系中的缺失在破坏重复或功能元件的可能性方面存在差异。与癌细胞系相比,GM细胞更加富集重复元件的缺失(70%对50%;基于基因组背景的预期值为50%)。有趣的是,相对于基因组背景,GM细胞中基因和增强子的缺失被消耗,而癌细胞系没有显示这种增强子缺失的消耗。为了鉴定癌症基因组特异性缺失,我们将观察到的缺失与基因组变异数据库进行了比较,该数据库汇编了先前研究中鉴定的已知多态性SV。先前报道了95%的GM细胞中发现的缺失,表明它们是群体中的多态性。癌细胞中多态性缺失的比例低于90%,可能是由于体细胞突变的存在。总的来说,与正常细胞相比,癌细胞遗传物质的丢失更大。进一步分析显示多态性缺失富集重复元件(70对50%基因组背景)和外显子丢失(1.5对4%基因组背景)。在我们可以找到具有增强子注释的对照细胞的六种癌细胞系中,我们发现多态性缺失对增强子缺失具有抗性(所有细胞系中的经验P0.)。相反,新的缺失不是富集重复或缺乏增强子或外显子。相反,它们富含COSMIC肿瘤相关基因,表明缺失的一部分具有潜在的致病性。我们确认通过光学图谱和WGS检测到的拷贝数变化高度一致。接下来,我们研究了SV是否可以通过破坏远端调节元件来影响癌症相关基因的表达。对于此分析,我们专注于T47D乳腺癌细胞和HMEC之间的比较。我们使用来自ENCODE联盟的H3K27ac染色质免疫沉淀测序数据预测了HMEC中的增强子,并将增强子与T47D中的缺失区域进行比较,以鉴定癌细胞中潜在缺失的增强子。我们在图4b中显示了一个实例,其中GNB4基因下游的3.4-kb缺失与乳房组织特异性增强子重叠。由于基因组扩增,该区域有六个拷贝,其中五个带有该缺失,只有一个增强器副本保持不受干扰。Hi-C在HMEC和CaptureHi-C数据中的证据表明GNB4可能受此增强子的调节。更重要的是,它是该地区唯一一个表达减少的基因,该区域中其余基因的表达高度上调,可能是由于拷贝数增加(图4c)。此外,我们发现全局缺失的增强子位于乳腺癌相关途径中的基因附近(图4d),与这些缺失的增强子相关的基因表达水平降低(图4e)。总体而言,这些结果表明癌症基因组中的缺失可能经常影响增强子并且可能有助于肿瘤发生。结构变异对3D基因组结构的影响遗传突变可以破坏TAD并产生“新TAD”,导致发育障碍中基因表达的错误调节。几个研究小组还表明,影响TAD边界或特定基因座上转录抑制因子CTCF结合位点的改变可能会产生新的染色质结构域,导致附近癌基因通过“增强子劫持”导致的错误调节。然而,SV在癌细胞中改变全基因组三维基因组结构的程度仍不清楚。利用Hi-C数据鉴定了20个癌细胞系中的SV,系统研究了结构变异对TAD结构的影响。我们观察到neo-TAD经常由于癌细胞中的大规模基因组重排而形成。一个例子如图5a所示,其中染色体9和18之间的融合在PANC-1细胞中形成neo-TAD。此外,我们发现由癌症细胞中的SV诱导的许多新TAD包含已知的癌症驱动基因,例如ERBB2,ETV1,ETV4,MYC和TERT。为了解决neo-TAD形成是否是癌症基因组中SV重排的一般结果,我们对每个细胞系中的所有断点交叉Hi-C信号进行了聚合分析。如图5b所示,我们观察到染色体间Hi-C信号形成尖锐的三角形形状(虚线),表明由于重排而形成融合-TAD(补充方法中的细节)。当我们使用具有随机化边界位置的改组TAD进行相同分析时未观察到该模式(图5b中的右图)。这些结果表明癌症的结构变化可以重新连接TAD结构并导致TAD融合和改变的调节环境(图5c)。图5:重新排列和TAD融合a.由于PANC-1细胞中的易位导致的Fusion-TAD形成。左侧框显示9号染色体上的重排区域,而右侧框显示18号染色体上的重排区域。断点融合位于中间。三角形Hi-C热图显示染色体内相互作用。钻石热图显示了断点交叉的Hi-C信号,表明存在TAD融合。b.TAD融合的总体分析。断点交叉Hi-C信号被平均并且以最近的TAD边界(左)或改组的TAD边界之间的区间为中心。虚线显示基于最近断点-近侧TAD边界的交点的预期新TAD边界。c.neo-TAD形成的模型。TAD由于断裂和融合而重排,将调节序列与非靶基因并列。d.小提琴图显示重排(n=4)或非重排(n=)TAD内基因的等位基因表达偏差的分布。垂直条代表中值。e.神经母细胞瘤细胞系中MYCN/N-Myc(绿色)和MYC/c-Myc(红色)的RNA-seq。在MYC基因座处具有TAD融合的细胞系显示出高水平的MYC表达(以红色标记),在MYC基因座处缺乏TAD融合的细胞系缺乏MYC表达(黄色)。f.来自SK-N-SH细胞的Hi-C数据显示在MYC基因座处的TAD融合。g.SK-N-AS细胞中的Hi-C数据显示在MYC基因座处的TAD融合。接下来,我们研究了neo-TAD对基因表达的影响。在八个癌细胞系中,我们观察到含有重排的TAD内的基因显示出比未重排的TAD内的基因更大的等位基因偏差,表明这些事件的至少一部分可能导致顺式基因表达的改变(图5d)。我们检查了三种神经母细胞瘤细胞系中的Hi-C数据并比较了MYC表达。其中,SK-N-DZ具有高MYCN/N-myc表达,而另外两个品系(SK-N-SH和SK-N-AS)具有高MYC/c-Myc表达(图5e)。值得注意的是,在具有高MYC表达的两种神经母细胞瘤细胞系(SK-N-AS和SK-N-SH)中,我们鉴定了MYC基因附近存在易位。来自CancerCellLineEncyclopedia的拷贝数分割表明在这两种细胞系中没有MYC扩增。相反,我们在两种情况下观察到包含MYC基因的neo-TAD的形成(图5f,g),表明neo-TAD的形成可能参与MYC活化。确定任何个体neo-TAD是否代表给定癌细胞类型的复发性改变,或者neo-TAD如何最终可能促成肿瘤发生,仍有待阐明。然而,我们的分析表明,neo-TAD的产生是癌症基因组重排的常见结果。讨论检测癌症基因组中的SV仍然是遗传学家和癌症生物学家面临的挑战。在这里,我们开发了一种算法,该算法首次可以使用Hi-C数据识别全基因组癌细胞中的全部SV。我们的算法显示出检测染色体间易位和大的染色体内重排的高准确度,即使只有大约1倍的基因组覆盖度。目前,我们的方法在检测1Mb大小的变化方面的能力有限。另一方面,我们已经证明光学图谱优于检测复杂的SV和解析局部基因组结构,尽管它不能检测小的缺失和插入(1kb)。WGS在检测结构变异方面具有最高分辨率,但在检测基因组中可差异可映射区域或解析复杂SV中的SV方面不太成功。最终,只有采用互补技术的综合方法才能提供最全面的癌症基因组视图。在检测受SV影响的区域时,我们发现远端增强子的广泛缺失,其位于已知在癌症中突变的基因附近并且对于癌症生物学中的途径是重要的。这种远端非编码突变在癌症基因组中复发的程度尚不清楚,但这代表了癌症基因组学中一个重要的,较少探索的方面。通过分析围绕SV的3D基因组结构,我们观察到由于癌症基因组中的基因组重排而频繁产生neo-TAD。我们开发了一个基于Web的工具,供用户可视化和检查这些新TAD。已有充分证据表明活性调节序列与已知癌基因的并置可促成肿瘤发生。我们的结果表明,至少部分这种效应可能是由于癌症基因组中新结构域的产生。所有SV是否产生融合TAD,以及TAD融合事件在癌症基因组中频发和作为驱动突变的程度将是未来研究要解决的重要问题。###结构变异,植物基因组学的下一个风口? EricWdy??????