【一文就够】TCGA下载-不同软件下载的数据编号怎么就对不上呢
此贴是为了回应一个疑问:TCGAbiolinks包、RTCGATollbox包,下载同一数据,数量对的上,怎么编号对不上?
还有一个引申的问题:TCGA 的表达数据、临床信息,怎么编号对不上?
--------------------------------------------------------------------------------------------------
第一个问题的产生,是由于不同工具提取的样本编号不同,当然也会出现结果不一致。
从样本来说,两种工具提取的样本是一样的。
要理解这个不一致,首先,要补一下TCGA对样本的命名方式,可参考官方文档:TCGA Code Tables。
简单说,比如一个编号是“TCGA-C5-A7UH-01A-11D-A351-09”。
其实,他的样本号是“TCGA-C5-A7UH-01A”。后面的“-11D-A351-09”是补充信息。
可是,写不同下载工具的伪码农可就不一定弄清楚了。
比如,“TCGA-C5-A7UH-01A”样本。
它在TCGAbiolinks下载到的编号是:TCGA-C5-A7UH-01A-11R-A352-07。
它在RTCGATollbox下载到的编号是:TCGA-C5-A7UH-01A-11D-A351-09。
测试数据下载于帖子【一文就够】TCGA-mRNA数据下载 的提问者@thaddeus 19楼。
--------------------------------------哪个编号更好呢?-------------------------------------
我推荐TCGAbiolinks下载的编号。
为啥呢?
因为,
RTCGATollbox包下载的编号的补充信息里“-11D-A351-09”的D指得是DNA啊。
TCGAbiolinks下载的编号的补充信息里“-11R-A352-07”的R指的是“Analysis”啊。
还有呢?
因为TCGAbiolinks包是使用TCGA的官方借口(API)下载的R包啊。
你不信官方发布的数据,难道相信第三方处理后的数据吗。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
另外,我分享了一个目录:版内《生信问题及解决方案》目录汇总
旨在 完善知识体系、方便查询所需代码、减少搜索的时间;
~~~喜欢我的分享,请用丁当鼓励我吧!~~~~
如你想我发布其他的生信经验分享,可以私信留言给我,
我会不定期挑选一些发布在坛子里
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
















































