• 论坛首页
  • 我的丁香客
  • 找人
    查找好友
  • 更多
    丁香园
    丁香通
    丁香人才
    丁香会议
    丁香搜索
    丁香医生
    丁香无线
    丁香导航
    丁当铺
    文献求助
    医药数据库
    丁香诊所
    来问医生
登录 注册

生物信息

关注今日:11 | 主题:139871
论坛首页  >  生物信息学讨论版   >  生物_信息结合
  • 发帖
    每发1个新帖
    可以获得0.5个丁当奖励
  • 回帖

分享到:

  • 微信

    微信扫一扫

  • 微博
  • 丁香客
  • 复制网址

TCGA数据库数据下载与整理,差异分析,lncRNA与mRNA分离,生存分析,ceRNA调控网络,miNRA差异分析,ID转换 [精华]

  • 只看楼主
  • 页码直达:
  • 直达末页
楼主 bio_wolf
bio_wolf
铁杆站友

  • 27
    积分
  • 541
    得票
  • 819
    丁当
  • +2 积分
  • 1楼
这个帖子发布于3年零287天前,其中的信息可能已发生改变或有所发展。

TCGA数据库分析宫颈鳞状细胞癌(CESC)

生物信息学是将分子生物学与信息处理技术结合,以计算机为工具对生物信息进行储存、检索和分析的交叉学科,其目的是利用各种数据库,分析整理其数据的意义而揭示大量复杂的生物数据所赋予的生物学奥秘。癌症基因组图谱(TCGA)数据库是由美国国家癌症研究所(NCI)及国家人类基因组研究所(NHGRI)联合建立,其中包括丰富的数据类型和肿瘤类型,不需要任何费用即可获得大量数据,其次在TCGA下载的数据已经经过了前期繁琐的标准化处理,节省了人工处理时间和资源。

在分析之前,先把我们做出来的结果剧透给大家

圆形代表DERAN,方块代表DEmiRNA,绿色外边圆形代表DElncRNA

分析GEO的朋友可以参考一下 

GEO芯片分析思路交流

分析GEO,并且在TCGA结合分析癌症的可以参考:

GEO多芯片联合分析&TCGA数据库分析、生成分析对差异基因验证,论文&报告思路交流

一、 数据下载

使用TCGA数据库获取肿瘤和正常配对组织的基因数据及miRNA数据。得到3个正常样本和304个CESC肿瘤样本。分别做临床分析、mRNA差异分析、lncRNA差异分析、miRNA差异分析、生存分析、ceRNA调控网络构建。


二、 mRNA差异表达

1、如何得到矩阵文件?

下载的是counts文件,每个样本的压缩包保存在单独的文件中。

首先需要把所有的压缩包放在同一个文件夹内,统一解压,然后从几百个counts文件提取矩阵。得到Ensembl的矩阵,用Homo_sapiens.GRCh38.87.chr.gtf文件进行转换,得到symbol的矩阵,包括mRNA,和lncRNA及其他一起。

分别提取mRNA的矩阵和lncRNA的矩阵。

2、使用R的edgeR包,筛选条件|logFC|>2 & FDR<0.01

得到1933个差异基因,1195个下调,738个上调,部分差异基因如下表

3、用heatmap包得到前100上调差异基因和前100下调差异基因的热图

4、GO功能分析

DAVID在线工具分析所有差异基因的GO功能,筛选条件PValue<0.01,得到223个GO。用R做柱状图得到GO功能分析图:




5、KEGG分析

对差异差异基因做KEGG分析,使用的是KOBAS 3.0,这是一款简单容易操作的在线分析工具,需要注意的是,KOBAS在线工具需要输入的是Entrez Gene ID,而我们得到的差异基因是Gene ID,这个需要转换,转换的工具很多,我们选择DAVID在线工具做转换。结果可以得到KEGG通路图和详细的表,筛选条件P-Value<0.01,得到67个KEGG通路,其中一条通路如下图:

6、蛋白互作网络

蛋白互作网络在论文出现的次数没有以前频繁,不过要看文章研究的重点和方向。我们选择String软件作为研究工具,这款可视在线工具使用非常简单,需要注意的是输入的Gene ID不能超过2000,输出PNG时需要对图片进行调整,调整有很多参数可以选择,比如相关性、是否出现游离基因,如果图片很大很混乱,需要把相关性调大,一般情况下剔除游离基因。

得到下面的蛋白互作网络:

三、lncRNA差异表达

1、获得lncRNA矩阵

TCGA数据库下载的转录数据,包含mRNA和lncRNA,是在同一部分文件中,提取lncRNA矩阵选取antisense、lincRNA、sense_intronic等。

2、使用edgrR包,筛选条件|logFC|>2 & FDR<0.01,得到494个差异lncRNA,其中下调360个,上调134个,部分差异lncRNA如下表

火山图

3、上调前100个,下调前100个lncRNA聚类做热图

四、miRNA差异表达

1、首先需要获得miRNA的矩阵文件,从TCGA下载下来的是每个样本单独的矩阵文件,需要利用perl或者python脚本提取,提取得到需要进行分析的文本文件。

2、使用edgrR包,筛选条件|logFC|>2 & FDR<0.01,得到74个差异miRNA,其中下调43个,上调31个,部分差异miRNA如下表:

3、热图分析,分析和前面mRNA差不多。

 

五、ceRNA网络构建

1、用在线工具,比如StarBase,做lncRNA和miRNA的比对,这一步是构建ceRNA的关键。这里494个差异lncRNA和74个差异miRNA进行比对。得到39个DElncRNA和18DEmiRNA相互作用。

2、miRNA靶基因预测

利用TargetScan、miRDB、miRanda、miRTarBase在线工具对18个miRNA进行靶基因预测,得到的靶基因在去和差异基因做淘汰,得到69个靶基因也就是DEmRNA。

3、构建ceRNA网络

经过一次比对,一次预测,最终得到39个DElncRNA、18个DEmiRNA和69个DEmRNA,以及它们之间的相互关系。使用cytoscape对具有相关性的lncRNA、miRNA、miRNA靶基因进行可视化。就可以得到ceRNA网络。cytoscape的使用有很多学问,如何做出漂亮的图需要很多时间和审美。


希望这个帖子对大家有帮助





  • 邀请讨论
  • 不知道邀请谁?试试他们

    换一换
2017-04-14 07:17 来自 Android客户端 浏览 : 101751 回复 : 161
  • 投票 153
  • 收藏 1562
  • 打赏 24
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
dxy_zpa7lkge 编辑于 2017-06-11 08:17
  • • 临床要不要去做超声,超声科待遇怎么样?
小马农
小马农
入门站友

  • 0
    积分
  • 12
    得票
  • 13
    丁当
  • 2楼
corale66

TCGA数据库分析宫颈鳞状细胞癌(CESC)

生物信息学是将分子生物学与信息处理技术结合,以计算机为工具对生物信息进行储存、检索和分析的交叉学科,其目的是利用各种数据库,分析整理其数据的意义而揭示大量复杂的生物数据所赋予的生物学奥秘。癌症基因组图谱(TCGA)数据库是由美国国家癌症研究所(NCI)及国家人类基因组研究所(NHGRI)联合建立,其中包括丰富的数据类型和肿瘤类型,不需要任何费用即可获得大量数据,其次在TCGA下载的数据已经经过了前期繁琐的标准化处理,节省了人工处理时间和资源。

在分析之前,先把我们做出来的结果剧透给大家

圆形代表DERAN,方块代表DEmiRNA,绿色外边圆形代表DElncRNA

分析GEO的朋友可以参考一下 

GEO芯片分析思路交流

分析GEO,并且在TCGA结合分析癌症的可以参考:

GEO多芯片联合分析&TCGA数据库分析、生成分析对差异基因验证,论文&报告思路交流

一、 数据下载

使用TCGA数据库获取CESC肿瘤和正常配对组织的基因数据及miRNA数据。得到3个正常样本和304个CESC肿瘤样本。分别做临床分析、mRNA差异分析、lncRNA差异分析、miRNA差异分析、生存分析、ceRNA调控网络构建。

二、 临床分析

TCGA改版后下载的Clinnical数据是XML文件,一个样本一个XML文件,需要用Perl或者Python写程序提取需要的数据。下表是CESC一部分临床数据,仅供交流。

三、 mRNA差异表达

1、如何得到矩阵文件?

下载的是counts文件,每个样本的压缩包保存在单独的文件中。

首先需要把所有的压缩包放在同一个文件夹内,统一解压,然后从几百个counts文件提取矩阵。得到Ensembl的矩阵,用Homo_sapiens.GRCh38.87.chr.gtf文件进行转换,得到symbol的矩阵,包括mRNA,和lncRNA及其他一起。

分别提取mRNA的矩阵和lncRNA的矩阵。

2、使用R的edgeR包,筛选条件|logFC|>2 & FDR<0.01

得到1933个差异基因,1195个下调,738个上调,部分差异基因如下表

3、用heatmap包得到前100上调差异基因和前100下调差异基因的热图

4、GO功能分析

DAVID在线工具分析所有差异基因的GO功能,筛选条件PValue<0.01,得到223个GO。用R做柱状图得到GO功能分析图:

5、KEGG分析

对差异差异基因做KEGG分析,使用的是KOBAS 3.0,这是一款简单容易操作的在线分析工具,需要注意的是,KOBAS在线工具需要输入的是Entrez Gene ID,而我们得到的差异基因是Gene ID,这个需要转换,转换的工具很多,我们选择DAVID在线工具做转换。结果可以得到KEGG通路图和详细的表,筛选条件P-Value<0.01,得到67个KEGG通路,其中一条通路如下图:

6、蛋白互作网络

蛋白互作网络在论文出现的次数没有以前频繁,不过要看文章研究的重点和方向。我们选择String软件作为研究工具,这款可视在线工具使用非常简单,需要注意的是输入的Gene ID不能超过2000,输出PNG时需要对图片进行调整,调整有很多参数可以选择,比如相关性、是否出现游离基因,如果图片很大很混乱,需要把相关性调大,一般情况下剔除游离基因。

得到下面的蛋白互作网络:

7、差异基因生存分析

生存曲线非常常见,直观的说明很多问题,生存曲线生成的软件很多,我们还是使用R语言,可以批量生存,相关参数也可以提取,简单高效。

首先需要用Calinical数据得到time表,也就是每个样本的生存时间和生存状态。

然后用time和矫正后的矩阵,输入差异基因,得到差异基因相关的生存数据。

最后使用R包,进行生存曲线制造,筛选条件P<0.05

1933个差异基因得到215个生存曲线

接下来需要分析的是差异lncRNA、差异miRNA,差异lncRNA和miRNA的生存曲线,然后是差异miRNA靶基因预测,差异lncRNA与临床数据的关系,最后绘制DElncRNA-DEmiRNA-DERNA的调控网络,也就是现在论文经常出现的ceRNA调控网络。

将继续跟帖分析

各位大神提出宝贵意见,让TCGA分析更加简单高效



思路很好,怎么处理呢?貌似好难
2017-04-14 08:55 来自 iPhone/iPad客户端
  • 投票 2
  • 收藏 2
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 【心电旋律 15】被“毒药”攻心的小姑娘(公布答案:布洛芬中毒导致低钙血症)
Jem-Y
Jem-Y

屏蔽用户

  • 1
    积分
  • 84
    得票
  • 7
    丁当
    热
  • 3楼

学习了!楼主的思路很赞!

同时,觉得要做DElncRNA与DERNA的相关性分析,如果是正相关才能推测为ceRNA网络;这也是最麻烦的地方

还想问请楼主帮我们拓展下思路,DElncRNA-DEmiRNA-DERNA 这个调控网络的意义,除了ceRNA还有其它可说的机制么?只单单拿出这一个网络、构不成ceRNA网络 应该怎么解释呢?



2017-04-15 16:45
  • 投票 5
  • 收藏 6
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 浙一咋了??爆炸了???
楼主 bio_wolf
bio_wolf
铁杆站友

  • 27
    积分
  • 541
    得票
  • 819
    丁当
  • 4楼

后面会把所有分析过程分享给大家,ceRNA网络里面的lncRNA和miRNA需要做比对,miRNA的靶基因需要与差异基因做比对,这样才能得到DElncRNA,和DEmiRNA。@Jem-Y 

2017-04-15 22:00
  • 投票 5
  • 收藏 5
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 快问快答:为什么哮喘控制维持至少3个月才可考虑降级治疗

关闭提示

需要2个丁当

丁香园旗下网站

  • 丁香园
  • 用药助手
  • 丁香通
  • 文献求助
  • 丁香人才
  • 丁香医生
  • 丁香导航
  • 丁香会议
  • 手机丁香园
  • 医药数据库

关于丁香园

  • 关于我们
  • 丁香园标志
  • 友情链接
  • 联系我们
  • 加盟丁香园
  • 版权声明
  • 资格证书

官方链接

  • 丁香志
  • 丁香园新浪微博
引用回复