dxy logo
首页丁香园病例库全部版块
搜索
登录

TCGA数据库数据下载整理(三):将esymbolid转换为基因名称。

发布于 2021-10-13 · 浏览 1001 · IP 广东广东
这个帖子发布于 3 年零 207 天前,其中的信息可能已发生改变或有所发展。

今天要讲的是如何将昨天得到的矩阵转换为以下这个矩阵,

img


img


我们来看一下这里面包含什么,里面行名是基因名称,列名是样本名称,里面是基因的表达量,要得到这个矩阵,我们需要准备一个输入文件,就是上次推文中讲的那个文件,还需要准备一个配置文件,如下图所示:

img


这个配置文件里面有esymbolid和基因id一一对应的关系,接下来我们需要一个脚本,就在上面图片里,然后将输入文件里面的esymbolid按照这个gtf配置文件里面的esymbolid和基因id一一对应的关系将esymbolid换成基因id,从而得到我们今天需要的这个矩阵,这个矩阵里面的基因名称和样本名称在发文章的时候,都是要用到的。这个矩阵里面包括的是基因名称和样本名称,而对应的数值就是基因在这个样本里面的表达量。得到这个矩阵后,转录组的数据就整理完成了。后面就直接算某个基因在样本里面高、低表达的数据就整理好了。

下面是具体的操作过程:在搜索框中输入cmd,点击命令提示符,输入cd加空格,加复制黏贴当前文件夹的路径,如下图所示。按回车,接下来输入perl加空格,加复制黏贴脚本名称,加空格,按回车,等光标回到大于号后,就可以了。我已经运行过了,所以就没有按回车了。

img


img

如果大家需要练习的gtf文件和脚本文件,可以在微信公众号科研风雨路后台留言,我们发给您,如果有什么疑问也可以在后台留言,我们看到的话,会及时回复的。如果觉得本文对你们有用的话,欢迎点赞,关注和分享。谢谢大家。

最后编辑于 2022-10-09 · 浏览 1001

2 3 2

全部讨论0

默认最新
avatar
2
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部