dxy logo
首页丁香园病例库全部版块
搜索
登录

生信学习 | 从UCSC Xena网站下载TCGA RNA-Seq转录组数据

发布于 2024-03-20 · 浏览 3328 · IP 广东广东
这个帖子发布于 1 年零 49 天前,其中的信息可能已发生改变或有所发展。

UCSC Xena是由加州大学圣克鲁兹分校(University Of Cingifornia Sisha Cruz,UCSC)维护的数据库,前身是癌症基因组浏览器Cancer Browser ,虽然其目前已经不再更新,但其中的RNA-Seq数据仍然具有潜在价值,可供我们进行生信分析。


⏩此节就让我们一起来学习一下如何从UCSC Xena下载转录组数据。


一、从UCEC数据库提取并下载转录组数据:


✅ 打开我们的UCEC网址:https://xena.ucsc.edu/

img


✅ 点击DATA SETS跳转到数据合集界面

img


✅ 选取我们需要下载的病种以及数据类型(这里我们以下载TCGA UCEC子宫内膜癌RNA-Seq为例)

img
img


✅我们点击这两个地方下载我们需要的数据,并设置好目录以防在R语言里读取出错

img
img
img


✅最后我们一共获取到了这3个文件,并对其在R语言中进行提取表达矩阵和临床信息的处理。


img



👉打开RStudio对所下载的数据进行整合及提取

img

👉我们读取临床表型数据和表达谱及对应探针数据

img

👉提取探针文件的位于最前的两列,“Ensembl_ID”、“id”用以merge函数匹配表达矩阵。

img

👉查看一下探针的前两列数据

img

👉用merge函数将探针转化的信息和表达谱信息进行合并

img

👉检查重复的基因名,即存在一个基因名对应多个Ensembl_ID的情况,需要删除重复,以用于后续设为行名

img

将基因名设为行名,同时删除Ensembl_ID所在的列

img

👉用view函数查看,可以看到我们此时得到了行为基因名,列为样本名的基因表达矩阵

img



img


利用Write.csv()函数对基因表达矩阵和临床信息进行导出即可,至此UCEC Xena RNA-Seq(以TCGA UCEC为例)的数据下载整理已完成,可用于后续的生信分析。

最后编辑于 2024-03-20 · 浏览 3328

回复2 点赞

全部讨论0

默认最新
avatar
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部