dxy logo
首页丁香园病例库全部版块
搜索
登录

TCGA官网下载miRNA成熟体表达谱 数据处理

其他学科医学生 · 发布于 2018-01-19 · IP 福建福建
1.5 万 浏览
这个帖子发布于 7 年零 293 天前,其中的信息可能已发生改变或有所发展。

2018.1.19

by 湖心

前言:与前体相比,miRNA成熟体isoform 原始count以及RPM数据下载下来处理比较复杂,因为不像表达谱,miRNA成熟体每个样本文件中的行数即表达的miRNA不一样,在这里总结一下流程。

当然,你可以直接在Xena可以直接得到整理好的成熟体miRNA的log2(RPM+1)值。


step1:自mirbase数据库下载mature.fa文件,提取hsa所有的miRNA mature ID,总共有2588个id

第一列是成熟的miRNA ID,第二列是mirbase数据库的id,唯一id,后面要用这个唯一id转换

img


step2:TCGA官网下载成熟体,如:TCGA-STAD->isoform->miRNA-seq 491个文件

必须下载的三个文件

1,gdc_manifest......txt

2,gdc-client.exe

3,metadata.cart........json

1和2下载数据

3用来提取filename与文件name以及TCGA barcode的对应关系

img


step3:根据上面下载好的文件,写代码,整合文件,转换id

最后处理成一个矩阵:行是成熟体miRNA id 2588行  列是样本barcode id


最后:用于后续分析的时候,选择性的针对0行处理或者不处理

14 66 6

全部讨论(0)

默认最新
avatar
14
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部