【一文就够】TCGA-mRNA数据下载
查看病例
#---------------------2020年2月24日更新------------------------------------------------#
TCGA是目前使用最多的肿瘤组学数据库,2018年的一批Cell文章也非常抢眼。在近年的肿瘤文章中,对TCGA数据库的分析,已成为标配。使用这个数据库,首先,当然是数据的下载了。
第一步,使用什么工具下载?结论是TCGAbiolinks包。着急用代码实战的亲们可跳到第二步了。
主要的下载资源有三处:官网、GDAC Firehose、UCSC Xena。
但是,
从能否下载raw_counts数据看,仅官网、Firehose可以。
从随访数据更新速度看,仅官网最全最新,Firehose更新最慢,Xena缺少用药数据。
从数据整理的难度看,难 -> 易:官网 > Firehose > Xena。
于是,综合来看,官网下载的数据是最全最新的,缺点是整理难度大。如果有工具弥补即可。TCGAbiolinks包可以弥补这点。这个包是从官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。
第二步,肺癌mRNA数据的下载。可推广到miR、CNV、甲基化等数据。
```r
# 安装R包
# 使用R3.5之前版本,用以下代码安装。
source("https://bioconductor.org/biocLite.R")
biocLite("TCGAbiolinks")
#使用R3.5之后版本,用以下代码安装。
if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("TCGAbiolinks")
# 安装数据清洗的R包
install.packages("dplyr","tibble")
# 加载R包
library(TCGAbiolinks)
library(dplyr)
library(tibble)
projectid <- "TCGA-LUAD"
query.count <- ***query(project= projectid,
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - Counts") # 需注意“-”前后的空格
# 下载数据
***download(query.count)
# 获得表达矩阵
dataAssay = ***prepare(query.count, summarizedExperiment = F)
dataAssay <- dataAssay %>% tibble::column_to_rownames(var="X1")
# dataAssay就是矩阵了,它此时在R的环境变量里、也就是在计算机内存中。你可以在R中对它进行进一步的分析。
# 也可以用write.table或write.csv命令把它从R里保存出来到硬盘,并保存为csv的格式,就可以用excel打开了。
write.csv(dataAssay, "TCGA-matrix.csv") # 此时,保存的文件名为“TCGA-matrix.csv”
```
下载速度取决于网络与官网的连接。该代码第一次运行时下载数据,之后,在同一文件夹再运行,不会重复下载数据,而会读入之前下载的数据。
***是三个字母,不知道为什么被和/谐了……分别是"G""D""C"
已解决以下论坛问题:
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
另外,我分享了一个目录:版内《生信问题及解决方案》目录汇总
旨在 完善知识体系、方便查询所需代码、减少搜索的时间;
~~~喜欢我的分享,请用丁当鼓励我吧!~~~~
如你想我发布其他的生信经验分享,可以私信留言给我,
我会不定期挑选一些发布在坛子里
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
最后编辑于 2020-02-23 · 浏览 4.4 万