TCGA官网下载miRNA成熟体表达谱 数据处理
2018.1.19
by 湖心
前言:与前体相比,miRNA成熟体isoform 原始count以及RPM数据下载下来处理比较复杂,因为不像表达谱,miRNA成熟体每个样本文件中的行数即表达的miRNA不一样,在这里总结一下流程。
当然,你可以直接在Xena可以直接得到整理好的成熟体miRNA的log2(RPM+1)值。
step1:自mirbase数据库下载mature.fa文件,提取hsa所有的miRNA mature ID,总共有2588个id
第一列是成熟的miRNA ID,第二列是mirbase数据库的id,唯一id,后面要用这个唯一id转换

step2:TCGA官网下载成熟体,如:TCGA-STAD->isoform->miRNA-seq 491个文件
必须下载的三个文件
1,gdc_manifest......txt
2,gdc-client.exe
3,metadata.cart........json
1和2下载数据
3用来提取filename与文件name以及TCGA barcode的对应关系

step3:根据上面下载好的文件,写代码,整合文件,转换id
最后处理成一个矩阵:行是成熟体miRNA id 2588行 列是样本barcode id
最后:用于后续分析的时候,选择性的针对0行处理或者不处理
















































