dxy logo
首页丁香园病例库全部版块
搜索
登录

【一文就够】TCGA下载-不同软件下载的数据编号怎么就对不上呢

医疗行业从业者 · 发布于 2018-07-26 · IP 北京北京
5624 浏览
这个帖子发布于 7 年零 105 天前,其中的信息可能已发生改变或有所发展。

此贴是为了回应一个疑问:TCGAbiolinks包、RTCGATollbox包,下载同一数据,数量对的上,怎么编号对不上?

还有一个引申的问题:TCGA 的表达数据、临床信息,怎么编号对不上?


--------------------------------------------------------------------------------------------------

第一个问题的产生,是由于不同工具提取的样本编号不同,当然也会出现结果不一致。

从样本来说,两种工具提取的样本是一样的。


要理解这个不一致,首先,要补一下TCGA对样本的命名方式,可参考官方文档:TCGA Code Tables

img

简单说,比如一个编号是“TCGA-C5-A7UH-01A-11D-A351-09”。

其实,他的样本号是“TCGA-C5-A7UH-01A”。后面的“-11D-A351-09”是补充信息。


可是,写不同下载工具的伪码农可就不一定弄清楚了。

比如,“TCGA-C5-A7UH-01A”样本。

它在TCGAbiolinks下载到的编号是:TCGA-C5-A7UH-01A-11R-A352-07。

它在RTCGATollbox下载到的编号是:TCGA-C5-A7UH-01A-11D-A351-09。

测试数据下载于帖子【一文就够】TCGA-mRNA数据下载 的提问者@thaddeus 19楼。


--------------------------------------哪个编号更好呢?-------------------------------------

我推荐TCGAbiolinks下载的编号。

为啥呢?

因为,

RTCGATollbox包下载的编号的补充信息里“-11D-A351-09”的D指得是DNA啊。

TCGAbiolinks下载的编号的补充信息里“-11R-A352-07”的R指的是“Analysis”啊。

还有呢?

因为TCGAbiolinks包是使用TCGA的官方借口(API)下载的R包啊。

你不信官方发布的数据,难道相信第三方处理后的数据吗。


~~~~~~~~~~~~~~~~~~~~~~~~~~~~

另外,我分享了一个目录版内《生信问题及解决方案》目录汇总

旨在 完善知识体系、方便查询所需代码、减少搜索的时间

~~~喜欢我的分享,请用丁当鼓励我吧!~~~~

如你想我发布其他的生信经验分享,可以私信留言给我,

我会不定期挑选一些发布在坛子里

~~~~~~~~~~~~~~~~~~~~~~~~~~~~

5 17 3

全部讨论(0)

默认最新
avatar
5
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部