TCGA DXY学习贴
dachong99 推荐Dxy 学习
处理TCGA原始数据和初级数据需要编程能力,例如R语言。如果是新手,建议你采用处理后数据,有几个很好的在线应用,既可以对TCGA数据进行可视话,也能够把处理后数据下载下来自己分析。
1. cbioportal:http://www.cbioportal.org/index.do 这个网站到google explore才能更好运行.这个网站开发了R语言的,The CGDS-R package provides a basic set of functions for querying the Cancer Genomic Data Server (CGDS) via the R platform for statistical computing. CGDS-R package 这个包可以直接install.能够获取数据.在TCGA/R文件夹里,有探索.但不会进一步分析. 这个网站的工作,最为厉害.可以做到尽可能的个体化.
Data Sets 里面,summary 就可以看到,每个dataset的大概内容.能不能在这里
2. UCSC Xena:http://xena.ucsc.edu/ TCGA hub在这里.可以下载到一些数据.这个网站可以做一些分析,以热图的形式进行表示. 是它的一个特征.当然也可以看到生存曲线.
3. Firehose:http://firebrowse.org/ 可以比较快的看到所有结果.但是个体化观察能力比较差.
4 .Genome Data Analysis Center http://gdac.broadinstitute.org/ 这里看到的都是data,有很多东西,不是很懂.有很多pipeline是油管,是所有人做好的分析吗? 可是好像没有看到raw的data.关于firehose如何处理数据
For a discussion of Firehose in the broader context of Big Cancer Data, see Nature Methods 10, 293–297 (2013) doi:10.1038/nmeth.2410.
5. TCGA Assembler: http://health.bsd.uchicago.edu/yji/TCGA-Assembler.htm 由于TCGA data have now been moved from the Data Coordinating Center (DCC) to the Genomic Data Commons (GDC).We are working with the GDC group, trying to make TCGA-Assembler compatible with the new TCGA data file structure in GDC. We will keep users updated about this process.我们也就只有等了
你可以自己尝试摸索一下。对于表达谱数据,建议你采用UCSC Xena
RSEM和RPKM两种数据处理方法有区别,但我一般直接用TCGA给的RSEM;对数据取log2(*+1),数据分布就非常类似基因芯片了。
这个文件(rnaseqv2-RSEM_genes_normalized_result)就是基因的mRNA表达数据,每列一个样本,每行一个基因,是我们常用的data;基因名字是Gene symbol | Entrez ID;样本中有原发肿瘤、正常对照、转移瘤等不同类型,需要区分并分离。把基因表达谱与样品临床信息进行匹配对齐后,即可进行差异表达分析。
针对TCGA数据建议还是使用Deseq和ergeR包进行差异分析,同意@dvdhover的数据预处理方法,同时可以通过去除均值小于1的数据行滤过部分低丰度的数据。
DESeq和edgeR的确是最受推崇的RNASeq差异表达分析方法。我这里讲讲他们的缺点。首先就是两个包对数据要求严格,均要求“raw counts data”,但这种数据TCGA是不公开的;虽然也有报道根据FPKM值逆推,但毕竟不是原装的。另外一点就是这两种处理方法不够灵活,只能用来做差异表达,后续如果我想做heatmap,还得把数据取对数;其他如看不同基因表达的相关性、基因表达与拷贝数相关性、GSEA分析等,用上述处理方法都做不了,取对数是我看到的最佳方案。当然,这些都是个人意见,欢迎批评指正。
可以获取raw counts data数据,通过TCGA Assemble获取的数据就有raw counts,正好可以通过edgeR进行分析,DESeq对于电脑的要求较高,可能需要一定级别的电脑,edgeR可以自己电脑上进行!
You can use an alternative source: http://gdac.broadinstitute.org/runs/analyses__2016_01_28/. Experienced users can use RTCGA package to retrieve data using command line.
These data are processed by Broad Institute. They are not as comprehensive as TCGA, but is enough for most of us.
Simple R code for downloading TCGA data processed by Broad institute.
RTCGA.download.R.zip(0.53k)
众所周知,TCGA数据库、TARGET数据库、CGCI数据库都已并入GDC。原先在各自数据库里开放的数据很多在GDC都列为controlled access,而依据官网,这些数据的获取必须通过申请eRA Commons、获取dbGaP权限等手段,非常繁琐而且不易实现。想请教各位在国内有无申请这些账号的经历可供分享?
DNA修复机制是癌症治疗的双刃剑:TCGA临床药物响应分析的启示
这是一篇单纯采用TCGA成文(IF 5分以上)的案例
RSEM是RNA-seq数据定量的一种算法,TCGA的RNA-seq数据是采用的这种算法进行mRNA定量的
TCGA改版后GDC Data Transfer Tool的使用
TCGA-2A-A8VL-01A-21R-A37H-13
前面的是样本编号,后面01A表示是肿瘤组织
前面三组(到0001)表明患者ID,第四组(01C)表明样品类型(01表示原发瘤组织,),后面的对分析意义不大
样本的barcode已经说明了这是一个肿瘤还是正常对照样本呀~你可以选择把你所要探究的肿瘤类型的所有样本测序都弄下来,利用barcode的后两位分组;或者分别下载正常的或者肿瘤的标本,储存成不同的文件。https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
中国医科大学附属第一医院神经外科吴安华教授课题组通过大样本检测描绘胶质瘤免疫状态,建立免疫标记体系准确预测病人生存,从免疫角度为胶质瘤精准医疗提供新的思路。相应结果可在TCGA数据库的536例胶质母细胞瘤中得到验证。
里面基因表达都用RSEM做了标准化
DESeq的内置设定首先就不允许算RSEM值,除非把数值强制取整。edgeR是可以算的,但是这样得出来的数值意义不大,不仅关于RSEM的说明中叙述了用edgeR与DESeq分析的不妥当,edgeR的官网文件也说了尽量用原始值。这样的话,不管是用DESeq或者edgeR,都存在数据处理方法上的不合理。
从TCGA下载的CNV(low pass DNASeq)数据,每个样本的数据如图,请问该表格是什么意思,该怎么计算每个样本的拷贝数?急!!谢谢大家
To get the copy number of a certain GENE, I suggest you use UCSC Xena,To get the copy number of a certain GENE, I suggest you use UCSC Xena (http://xena.ucsc.edu/)
UCSC Xena















































