dxy logo
首页丁香园病例库全部版块
搜索
登录

【一文就够】TCGA-mRNA数据下载

丁香园临床病例数据库
证书编号:
stringson
    您的案例《【一文就够】TCGA-mRNA数据下载》 经同行评议,被丁香园临床病例数据库收录。
收录时间 2025年5月19日
长按识别二维码
查看病例
发布于 2018-05-15 · 浏览 4.4 万 · IP 北京北京
这个帖子发布于 7 年零 6 天前,其中的信息可能已发生改变或有所发展。

#---------------------2020年2月24日更新------------------------------------------------#


TCGA是目前使用最多的肿瘤组学数据库,2018年的一批Cell文章也非常抢眼。在近年的肿瘤文章中,对TCGA数据库的分析,已成为标配。使用这个数据库,首先,当然是数据的下载了。


第一步,使用什么工具下载?结论是TCGAbiolinks包。着急用代码实战的亲们可跳到第二步了。

主要的下载资源有三处:官网、GDAC Firehose、UCSC Xena。

但是,

从能否下载raw_counts数据看,仅官网、Firehose可以。

从随访数据更新速度看,仅官网最全最新,Firehose更新最慢,Xena缺少用药数据。

从数据整理的难度看,难 -> 易:官网 > Firehose > Xena。


于是,综合来看,官网下载的数据是最全最新的,缺点是整理难度大。如果有工具弥补即可。TCGAbiolinks包可以弥补这点。这个包是从官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。


第二步,肺癌mRNA数据的下载。可推广到miR、CNV、甲基化等数据。


```r

# 安装R包

# 使用R3.5之前版本,用以下代码安装。

source("https://bioconductor.org/biocLite.R")

biocLite("TCGAbiolinks")

#使用R3.5之后版本,用以下代码安装。

if (!requireNamespace("BiocManager", quietly = TRUE))    install.packages("BiocManager") BiocManager::install("TCGAbiolinks")

# 安装数据清洗的R包

install.packages("dplyr","tibble")


# 加载R包

library(TCGAbiolinks)

library(dplyr)

library(tibble)

projectid <- "TCGA-LUAD"

query.count <- ***query(project= projectid,

                       data.category = "Transcriptome Profiling",

                       data.type = "Gene Expression Quantification",

                       workflow.type = "HTSeq - Counts")   # 需注意“-”前后的空格

# 下载数据

***download(query.count)

# 获得表达矩阵

dataAssay = ***prepare(query.count, summarizedExperiment = F)

dataAssay <- dataAssay %>% tibble::column_to_rownames(var="X1")

# dataAssay就是矩阵了,它此时在R的环境变量里、也就是在计算机内存中。你可以在R中对它进行进一步的分析。

# 也可以用write.table或write.csv命令把它从R里保存出来到硬盘,并保存为csv的格式,就可以用excel打开了。

write.csv(dataAssay, "TCGA-matrix.csv")  # 此时,保存的文件名为“TCGA-matrix.csv”

```

下载速度取决于网络与官网的连接。该代码第一次运行时下载数据,之后,在同一文件夹再运行,不会重复下载数据,而会读入之前下载的数据。

***是三个字母,不知道为什么被和/谐了……分别是"G""D""C"


已解决以下论坛问题:

求助,TCGA数据下载后整合~~


~~~~~~~~~~~~~~~~~~~~~~~~~~~~

另外,我分享了一个目录版内《生信问题及解决方案》目录汇总

旨在 完善知识体系、方便查询所需代码、减少搜索的时间

~~~喜欢我的分享,请用丁当鼓励我吧!~~~~

如你想我发布其他的生信经验分享,可以私信留言给我,

我会不定期挑选一些发布在坛子里

~~~~~~~~~~~~~~~~~~~~~~~~~~~~

最后编辑于 2020-02-23 · 浏览 4.4 万

全部讨论(0)

默认最新
avatar
123
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部