dxy logo
首页丁香园病例库全部版块
搜索
登录

【一文就够】TCGA数据ENSG转换为基因名(Symbol)

发布于 2018-05-15 · 浏览 3.2 万 · IP 北京北京
这个帖子发布于 6 年零 356 天前,其中的信息可能已发生改变或有所发展。

TCGA的RNAseq数据,是使用gencode进行基因注释的。因此,下载raw_counts后,基因名称是"ENSG"开头的ensemble号。ensemble号没有实际意义,而发表文章常用的是基因名称,经常阅读文献可以从基因名称猜测基因功能。因此,需要将ENSG转换为Symbol(基因名称)。


将ENSG转换Symbol,是常规操作,于是,首先选择找找已有的R包,而不是选择撸起柚子造轮子。

```r

# 安装包

if (!requireNamespace("BiocManager", quietly = TRUE))

    install.packages("BiocManager")

BiocManager::install("AnnotationDbi")

BiocManager::install("org.Hs.eg.db")

# 加载包

library("AnnotationDbi")

library("org.Hs.eg.db")

# for test

GENEID <- c(1,2,3,9,10)

ENSEMBL <- c("ENSG00000121410","ENSG00000175899","ENSG00000256069","ENSG00000171428","ENSG00000156006")

df <- data.frame(ENSEMBL,GENEID)

# ENSG转换Symbol

df$symbol <- mapIds(org.Hs.eg.db,

                     keys=ENSEMBL,

                     column="SYMBOL",

                     keytype="ENSEMBL",

                     multiVals="first")

```


已解决以下论坛问题:

求助:有关批量ensembl ID转换为symble,缩写名的问题



~~~~~~~~~~~~~~~~~~~~~~~~~~~~

另外,我分享了一个目录版内《生信问题及解决方案》目录汇总

旨在 完善知识体系、方便查询所需代码、减少搜索的时间

~~~喜欢我的分享,请用丁当鼓励我吧!~~~~

如你想我发布其他的生信经验分享,可以私信留言给我,

我会不定期挑选一些发布在坛子里

~~~~~~~~~~~~~~~~~~~~~~~~~~~~


最后编辑于 2019-10-07 · 浏览 3.2 万

47 81 15

全部讨论0

默认最新
avatar
47
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部