差异分析,GEPIA做柱状图
生信论文的套路
- ONCOMINE从全景、亚型两个维度做表达差异分析;
- 临床标本从蛋白水平确认(或HPA数据库),很重要;
- Kaplan-Meier Plotter从临床意义的角度阐明其重要性;
- cBio-portal数据库做基因组学的分析(机制一);
- STRING互作和GO/KEGG分析探讨可能的信号通路(机制二);
- TISIDB/TIMER分析肿瘤免疫特征(机制三)。
在做差异表达的分析时,双确认总比单个数据库有说服力。具体用哪两种组合,每个人都有自己的偏好,能说明问题就行。但是,个人经验来说,免疫浸润表型分析,首选oncomine+TIMER;相关性分析较多,尤其是涉及基因表达的相关性,基因表达与肿瘤分期的相关性,首选oncomine+GEPIA;若涉及基因组学如甲基化或者与病理分期的相关性,则首选oncomine+UALCAN。
GEPIA是北京大学张泽民教授实验室的唐泽方等人通过 R 、Perl等语言对数据进行处理、可视化而设计的癌症大数据分析网站 。分析内容包括肿瘤/正常差异表达谱分析、表达分布、病理分期、生存分析,相似基因,基因表达相关性和降维分析等。界面友好,操作简答,通过点击GEPIA 就可以进行综合全面的分析。
网址: http://gepia.cancer-pku.cn/
首页界面如下,目前已经有更新版GEPIA2(点击右侧test可以进入)
GEPIA数据库的主要功能
- 单基因分析,差异分析,与肿瘤分期的相关性,生存分析和相似基因。
- 肿瘤类型分析,包括筛选与肿瘤关系、影响生存最密切的基因。
- 多基因分析,包括基因表达的相关性和降维分析等。
GEPIA最基础的分析是差异分析,这与其他数据库基本一致。
既可以展示某基因在所有肿瘤的表达情况(个人不喜欢散点图,极丑,所以没有展示),柱状图展示,清晰明了,但是没有p值。
也可以具体展示,输入基因名称,选择要分析的肿瘤,点击plot即可。
得出柱状图,此时差异分析是有差异展示情况的。以ERBB2在乳腺癌中的表达分析为例,最终得出结果。至于生存分析,个人建议还是首选km plotter,因此不做详细展示。
GEPIA另外一个比较有特色的功能是基因表达的相关性分析。我们以乳腺癌中ERBB2和EGFR表达的相关性分析为例展示。
点击plot。
对于分析基因与热点分子,如免疫检查点分子的相关性,便利而强大。
目前,我们介绍这么多转录水平差异分析的网站,oncomine是基础,必须有。其余数据库,各有侧重,在做分析时,需综合考虑做出验证。当然还有其他很多数据库,比如HCCDB数据库是肝癌的专门数据库等。只要熟练掌握这几种数据库,转录水平的差异分析就过关了。最重要的是通过使用数据库,提升科学思维,尽快发表论文。