追根溯源,驱动突变和突变(drivergenesandmutations)是肿瘤肆虐的根本原因
对33种癌症类型中,对9,个肿瘤中的致癌驱动基因和突变进行的全面分析后发现,TCGA肿瘤样本存在普遍性的临床上可靶向的癌症驱动事件。
Highlight
PanSoftware应用于PanCancer数据,并识别了的种肿瘤驱动基因
驱动基因和突变在解剖学起源和细胞类型之间共享
生物信息学分析约驱动基因突变随后使用实验进行功能验证。
分析的肿瘤中有57%具有潜在的可靶向治疗的分子事件。
驱动突变(DriverMutation):与肿瘤发生直接相关的体细胞突变
乘客突变(PassengerMutation):与肿瘤发生有关但不起关键作用的体细胞突变
基因组层面的体细胞突变类型分布
单核苷酸突变(SNV)
同义突变
错义突变
短序列插入或缺失(Indel)
拷贝数变异(CNV)
染色体结构变异(SV)
Summary
鉴定癌症的分子驱动因素对于精确肿瘤学至关重要。现在可以使用多种高级算法来识别驱动程序,但是在大型数据集上进行组合和优化的系统性的尝试却很少。在这里,作者报告了PanCancer和PanSoftware分析,该分析涵盖了9,个肿瘤WES数据(TCGA中33种肿瘤类型),并使用26种不同生信工具的MC3体细胞突变分析工具对驱动基因和突变进行分类。作者确定了个驱动基因,这些基因涉及其解剖部位和癌症/细胞类型。基于序列和结构的分析确定了3,个预测的驱动基因突变(错义突变);并且这些结果由多种证据支持。例如,实验结果提示60%–85%的预测突变是可能的驱动因素。此外,作者发现个MSI肿瘤与高PD-1/PD-L1有关,并且分析的肿瘤中有57%具有潜在的可靶向治疗的致癌事件。从细胞系的功能验证中证明,其中8种工具和一种新开发的算法所完成的突变分类和表型有最强的一致性。4种工具来阐释了三维空间的突变聚类。其余工具使用机器学习,数据库挖掘算法揭示免疫浸润,临床关联和临床上可操作的分子事件。
结果Part1:样本来源样本来源:样本
纳入排除标准:
(一)超突变样本(过滤一)。
超突变:(Q3+1.5*IQR)大于Q3的四分位数间距的1.5倍。+样品中的突变数1,。
LUAD,SKCM和UCEC的的超突变阈值1,个突变(分别为1,、2,和2,)。
最终数据集由9,个样本组成。
(二)添加人工标签(过滤二):
1.非外显子区域
2.全基因组扩增测序whole-genomeamplified(WGA)样本
3.肿瘤/血液来源配对样本
4.链偏倚
5.污染
6.8-氧代鸟嘌呤
7.低测序深度
8.ExAC(ExomeAggregationConsortium,外显子组整合联合数据库
9.正常样本中的突变
10.如果没有上述人工标签,却在2个及以上基因组变异探测软件中识别,被标记为“PASS”
详细流程:
排除了个超突变体样品[超突变:(Q3+1.5*IQR)大于Q3的四分位数间距的1.5倍。+样品中的突变数1,]
对OV和LAML样品不采用标准筛选条件
排除标有病理不一致样本
最后:个样本+1,,个总突变
Figure1B:过滤后外显子中体细胞突变数目的概览
Figure1C:过滤后外显子中错义突变中转换和颠换的比例概览
FigureS1C
背景知识:β在文献中常为effectsize,第二类错误率(假阴性),把高于背景突变率的基因判定为非高于背景突变率的基因。β越小,犯第二类错误的概览越小。
之前的PanCan-12研究的effectsize0.01
Figure1D:现在的研究PANCAN的effectsize可0.01,统计学意义上说明算法的检验效能提高了。
对于单个癌种,通过对统计功效的计算,证明了大样本量下检测驱动基因方法的可靠性(图1D)。
Part2:如何预测?1.主流方式是寻找高频突变基因(SMG)
2.那么怎样筛选高频突变基因?例如:
算法基于频率的算法基于癌症驱动基因比乘客基因的突变频率较高这一原理,使用统计算法计算出高频突变频率高于背景突变频率的基因为癌症驱动基因MuSiC,MutSigCV,OncodriveCLUST,ActiveDriver基于基因功能算法根据突变基因对应的蛋白信息构建基因突变有害性的评价模型,最终将有害性较高的基因认定为驱动基因OncodriveFML,e-Driver利用上述8种算法检测SMG以预测驱动突变。
以一致性得分来评估:(举例)
首先:评估软件是否异常
已知的驱动基因有10个。
1.对于TCGA-LIHC使用MuSiC软件识别个突变,取交集后,数量小于[median(10)]--异常
2.p值与理论p值分布差异较大--异常
3.使用MuSiC软件检测出来的显著基因异常多(1.5倍四分位数间距)--异常
综上,1/2/3任一异常,则该软件异常。
其次,对于ARID1A基因:
1.p值显著
2.算法不异常=1分,算法异常=-0.5分
最后,通过LAD,再过滤45个基因,得个基因。
挽回41个基因(人工搜索及额外的组学工具),最终41+=个基因。(作者想说明他们的系统预测驱动突变的方法也存在一定局限性)
背景知识:驱动基因相关数据库:CGC(CancerGeneCensus):现包含个驱动基因,数据库对基因突变和癌症因果关联进行分类,信息包括发生基因突变的染色体位置、已有报道的基因突变类型和种类以及一些遗传特性等。
FigureS2D-F:作者发现的genelist和TCGA已发表文献genelist,CRC中驱动基因list之间的相互占比。
1.31种癌症类型中有20种包括了先前已发表或已知的癌症驱动基因,复原率超过80%
2.列表还包括59个新基因以及之前未与特定组织关联的其它已知驱动基因
FigureS4B:预测的肿瘤抑制基因与癌基因的比例在不同组织之间也存在很大差异
癌症类型的平均突变负荷与已识别共有基因数量之间存在显著正相关性
FigureS3C:每种癌症类型效应大小(β)与已识别共有基因数量成负相关,但无统计学意义。
Figure2A
每个扇形代表一个癌种,该癌种特异突变的驱动基因,不同颜色的矩形块是利用20/20+算法预测出的基因致病状态,从橘色-青色分别代表肿瘤抑癌基因-致癌基因。右上角的扇形为在多个癌种中显著出现的突变基因。
左半边:个驱动基因与单个癌症相关
右半边:87个基因在两种或多种癌症类型中具有驱动作用
1.TP53在27个27种癌症类型都为驱动基因,其次是PIK3CA,KRAS,PTEN和ARID1A
2.基于一致性评分聚类:鳞癌,妇科癌症和胃肠道癌(按照组织来源聚类)
Figure2B:根据生物学过程和通路对驱动基因进行分类(反映了已知的癌变程)
1.10个癌症与免疫信号通路相关
2.大多数癌种中,都至少有一个驱动基因参与了基因组完整性(28种)、MAPK(24种)、PI3K通路(22种)
3.鳞癌中,大多数基因参与到组蛋白修饰信号、酪氨酸激酶信号以及免疫信号中
Part3:如何判断驱动基因突变的影响FigureS1A,3A:
驱动基因,,错义突变--三种不同类型算法
1)基于序列区分良性和致病性突变(CTAT-population):10,个(1.3%)
2)基于序列区分驱动突变与乘客突变序列(CTAT-Cancer):4,个(0.6%)
3)基于结构的发现显著统计意义的错义突变3D结构聚类:1,个(占0.2%)---背景知识:蛋白质是生命活动的基本单位,在进行基因突变位致病性研究时,很重要的一点就是分析该变异是否会影响蛋白质的结构与功能。
每种方法的预测驱动突变数量差异可能是由于工具设计和要求所致,即结构聚类工具对可用三维蛋白质结构(基于实验或基于同源性)的依赖性产生更少的预测驱动突变
Figure3B:
1.大多数抑癌基因突变是截短或移码突变,部分也发生错义突变(EP,CREBBP,CASP8,PIK3R1和TP53)
2.致癌基因比例抑癌基因比例
Figure3C:
2%(10/)的R位点的IDH1错义突变是在不知道携带这种突变的癌症中发现的,例如BLCA,BRCA,COADREAD,LUAD,PCPG和THYM
Q72位点的RRSA2突变是异常突变,为预测的子宫内膜癌致癌基因(5个样本),与KRASQ61和HRASQ61同源性强,在以前癌症类型中也没有被识别到。
以上结果说明,如果作者仅