生信学习 | 从UCSC Xena网站下载TCGA RNA-Seq转录组数据
UCSC Xena是由加州大学圣克鲁兹分校(University Of Cingifornia Sisha Cruz,UCSC)维护的数据库,前身是癌症基因组浏览器Cancer Browser ,虽然其目前已经不再更新,但其中的RNA-Seq数据仍然具有潜在价值,可供我们进行生信分析。
⏩此节就让我们一起来学习一下如何从UCSC Xena下载转录组数据。
一、从UCEC数据库提取并下载转录组数据:
✅ 打开我们的UCEC网址:https://xena.ucsc.edu/

✅ 点击DATA SETS跳转到数据合集界面

✅ 选取我们需要下载的病种以及数据类型(这里我们以下载TCGA UCEC子宫内膜癌RNA-Seq为例)


✅我们点击这两个地方下载我们需要的数据,并设置好目录以防在R语言里读取出错



✅最后我们一共获取到了这3个文件,并对其在R语言中进行提取表达矩阵和临床信息的处理。

👉打开RStudio对所下载的数据进行整合及提取

👉我们读取临床表型数据和表达谱及对应探针数据

👉提取探针文件的位于最前的两列,“Ensembl_ID”、“id”用以merge函数匹配表达矩阵。

👉查看一下探针的前两列数据

👉用merge函数将探针转化的信息和表达谱信息进行合并

👉检查重复的基因名,即存在一个基因名对应多个Ensembl_ID的情况,需要删除重复,以用于后续设为行名

将基因名设为行名,同时删除Ensembl_ID所在的列

👉用view函数查看,可以看到我们此时得到了行为基因名,列为样本名的基因表达矩阵


利用Write.csv()函数对基因表达矩阵和临床信息进行导出即可,至此UCEC Xena RNA-Seq(以TCGA UCEC为例)的数据下载整理已完成,可用于后续的生信分析。
最后编辑于 2024-03-20 · 浏览 3328