干湿实验研究宫颈癌甲基化发5.8分SCI!
今天分享的是一篇2019年12月份发表在Signal Transduct Target Therapy(IF:5.87)上文章。
标题Integrative analysis of DNA methylation and gene expression identified cervical cancer-specific diagnostic biomarkers
DNA甲基化和基因表达的综合分析识别了宫颈癌特异性诊断生物标志物
摘要
宫颈癌是全世界癌症女性死亡的主要原因。本文对TCGA的Illumina HumanMethylation450K和RNA-seq数据进行综合分析,以识别宫颈癌特异性DNA甲基化标记。本文首先识别了差异甲基化和表达的基因,并研究了DNA甲基化与基因表达之间的相关性。使用宫颈癌在内的12种癌症的DNA甲基化图谱生成候选集,并采用机器学习技术来识别候选集中最终的宫颈癌特异性标志物。启动子甲基化与基因表达呈现负相关。在远距离调控基因表达中,高甲基化基因的甲基化更可能与基因表达负相关,而低甲基化基因的甲基化更可能与基因表达正相关。此外,使用TCGA数据进行十倍交叉验证,识别了四个宫颈癌特异性甲基化标记物cg07211381(RAB3C),cg12205729(GABRA2),cg20708961(ZNF257)和cg26490054(SLC5A8),其敏感性为96.2%,特异性为95.2%。这四个标记可以在GEO数据库的四个独立验证集中以94.2%、100%、100%和100%的AUC区分肿瘤与正常组织。此研究表明了甲基化标记物在宫颈癌诊断中的潜在作用,并可能促进新的表观遗传疗法的发展。
结果概述
1、 宫颈癌DNA甲基化的无监督聚类分析
将178例具有临床信息的宫颈肿瘤样本用于聚类分析。591个变异最大的DNA甲基化探针的一致性聚类识别了三个簇,分别被称为CIMP(CpG岛甲基化表型)高,CIMP中和CIMP低。20(11%),69(39%)和89(50%)个样本被聚类为CIMP高,CIMP中和CIMP低。并且发现三个临床特征(组织学,HPV状态、HPV种类)与这三个簇相关。如下图所示:
2、 差异甲基化和表达分析
在113个正常肿瘤样本和307个肿瘤样本之间,共有46040个CpGs发生甲基化。宫颈癌中有29730个高甲基化的CpG和16235个低甲基化的CpG。又分析了差异甲基化CpG(DMC)在各功能基因组区域中的分布。如下图所示:
在69个正常和304个肿瘤样本之间进行差异表达分析。共得到4949个差异表达基因(DEG),其中3096个上调基因和1853个下调基因。
3、 DNA甲基化对宫颈癌基因调控的影响
使用差异甲基化基因(DMG)和DEG之间的交集,进行DNA甲基化和基因表达的综合分析。许多研究表明,启动子甲基化会导致肿瘤抑制基因的失活,这是癌症发展的重要机制。根据DMG和DEG之间的交集,将基因分为四组:高甲基化表达上调(hyper-up),高甲基化表达下调(hyper-down),低甲基化表达上调(hypo-up)和低甲基化表达下调(hypo-up)。在2096个高甲基化基因中,有123个基因表达上调,601个基因表达下调。在1800个低甲基化基因中,165个基因表达上调,203个基因表达下调。对于下游标记物识别过程,本文集中于hyper-down基因,hyper-down基因的GO功能分析表明,大量基因参与化学突触传递,通过质膜粘附分子的同性细胞粘附,神经系统发育,谷氨酸受体信号传导途径和钾离子跨膜转运等功能。主要富集到神经活性配体-受体相互作用,昼夜节律夹带,钙信号传导,细胞粘附分子和逆行内源性大麻素信号传导等KEGG通路。甲基化和表达的相关性分析发现:在93,262个CpG基因对中,有323个(10%)基因显示出显著正相关,有2973个(88%)基因显示出显著负相关,而有83个(2%)基因显示出正相关和负相关(一个基因可以与CpG正反相关,因为一个基因在启动子区域可以包含多个CpG)。然后,作者研究了DNA甲基化对基因表达的远距离调节的影响。计算了差异表达和甲基化基因中的1092个CpG与4949个DEG之间的Pearson相关性。高甲基化基因的启动子甲基化更可能与基因表达负相关,而低甲基化基因的启动子甲基化更可能与基因表达正相关。如下图所示:
4、 宫颈癌特异性甲基化标志物的识别和验证
为了确定可靠的宫颈癌特异性甲基化信号,本文使用其他癌症的TCGA甲基化数据和机器学习技术严格筛选标记,流程如下图所示:
在2582个高甲基化低表达CpG中,排除了其它11种癌症中发现的2194个DMC。然后,对TCGA,GSE38266,GSE46306和GSE68339的样本中388 CpG进行层次聚类,通过基于信息增益和顺序后向特征选择(SBFS)的混合特征选择方法来进一步过滤候选标记。最终,作者识别了四个宫颈癌特异性标记,即cg07211381,cg12205729,cg20708961和cg26490054。这些CpG定位于四个不同的基因:RAB3C(cg07211381),GABRA2
(cg12205729),ZNF257(cg20708961)和SLC5A8(cg26490054)。然后,通过使用TCGA样本作为训练集建立了逻辑回归模型,并进行了十倍交叉验证。曲线下面积(AUC)为0.989,表明这四种标记物在区分TCGA宫颈癌和正常样本方面可以表现出优异的性能。如下图所示:
5、 GABRA2,ZNF257和SLC5A8在宫颈癌中弱表达
为了进一步研究四个高甲基化宫颈癌特异性标记物在人CSCC标本中的表达,我们使用93个人CSCC样本及配对组织,通过免疫组化(IHC)评估GABRA2,ZNF257,SLC5A8和RAB3C的蛋白质水平。最终发现CSCC细胞中GABRA2,ZNF257和SLC5A8的染色水平显著低于相邻正常细胞,而RAB3C的水平显示CSCC和正常细胞之间没有差异。结果表明,GABRA2,ZNF257和SLC5A8的高甲基化与这些基因在人CSCC细胞中表达的降低有关,这证明GABRA2,ZNF257和SLC5A8可能是人CSCC的新诊断标记。如下图所示:
本文逻辑清晰,运用机器学习方法筛选癌症标记,并进行了实验验证,在研究DNA甲基化与表达关系中值得我们学习。