【一文就够】TCGA-mRNA数据下载

stringson

医疗行业从业者 · 发布于 2018-05-15 · IP 北京北京

4.6 万浏览

这个帖子发布于 7 年零 178 天前，其中的信息可能已发生改变或有所发展。

#---------------------2020年2月24日更新------------------------------------------------#

TCGA是目前使用最多的肿瘤组学数据库，2018年的一批Cell文章也非常抢眼。在近年的肿瘤文章中，对TCGA数据库的分析，已成为标配。使用这个数据库，首先，当然是数据的下载了。

第一步，使用什么工具下载？结论是TCGAbiolinks包。着急用代码实战的亲们可跳到第二步了。

主要的下载资源有三处：官网、GDAC Firehose、UCSC Xena。

但是，

从能否下载raw_counts数据看，仅官网、Firehose可以。

从随访数据更新速度看，仅官网最全最新，Firehose更新最慢，Xena缺少用药数据。

从数据整理的难度看，难 -> 易：官网 > Firehose > Xena。

于是，综合来看，官网下载的数据是最全最新的，缺点是整理难度大。如果有工具弥补即可。TCGAbiolinks包可以弥补这点。这个包是从官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。

第二步，肺癌mRNA数据的下载。可推广到miR、CNV、甲基化等数据。

```r

# 安装R包

# 使用R3.5之前版本，用以下代码安装。

source("https://bioconductor.org/biocLite.R")

biocLite("TCGAbiolinks")

#使用R3.5之后版本，用以下代码安装。

if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("TCGAbiolinks")

# 安装数据清洗的R包

install.packages("dplyr","tibble")

# 加载R包

library(TCGAbiolinks)

library(dplyr)

library(tibble)

projectid <- "TCGA-LUAD"

query.count <- ***query(project= projectid,

data.category = "Transcriptome Profiling",

data.type = "Gene Expression Quantification",

workflow.type = "HTSeq - Counts") # 需注意“-”前后的空格

# 下载数据

***download(query.count)

# 获得表达矩阵

dataAssay = ***prepare(query.count, summarizedExperiment = F)

dataAssay <- dataAssay %>% tibble::column_to_rownames(var="X1")

# dataAssay就是矩阵了，它此时在R的环境变量里、也就是在计算机内存中。你可以在R中对它进行进一步的分析。

# 也可以用write.table或write.csv命令把它从R里保存出来到硬盘，并保存为csv的格式，就可以用excel打开了。

write.csv(dataAssay, "TCGA-matrix.csv") # 此时，保存的文件名为“TCGA-matrix.csv”

```

下载速度取决于网络与官网的连接。该代码第一次运行时下载数据，之后，在同一文件夹再运行，不会重复下载数据，而会读入之前下载的数据。

***是三个字母，不知道为什么被和/谐了……分别是"G""D""C"

已解决以下论坛问题：

求助，TCGA数据下载后整合~~

~~~~~~~~~~~~~~~~~~~~~~~~~~~~

另外，我分享了一个目录：版内《生信问题及解决方案》目录汇总

旨在 完善知识体系、方便查询所需代码、减少搜索的时间；

~~~喜欢我的分享，请用丁当鼓励我吧！~~~~

如你想我发布其他的生信经验分享，可以私信留言给我，

我会不定期挑选一些发布在坛子里

~~~~~~~~~~~~~~~~~~~~~~~~~~~~

123 374 35

【一文就够】TCGA-mRNA数据下载

全部讨论(0)