【一文就够】TCGA数据ENSG转换为基因名(Symbol)
TCGA的RNAseq数据,是使用gencode进行基因注释的。因此,下载raw_counts后,基因名称是"ENSG"开头的ensemble号。ensemble号没有实际意义,而发表文章常用的是基因名称,经常阅读文献可以从基因名称猜测基因功能。因此,需要将ENSG转换为Symbol(基因名称)。
将ENSG转换Symbol,是常规操作,于是,首先选择找找已有的R包,而不是选择撸起柚子造轮子。
```r
# 安装包
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("AnnotationDbi")
BiocManager::install("org.Hs.eg.db")
# 加载包
library("AnnotationDbi")
library("org.Hs.eg.db")
# for test
GENEID <- c(1,2,3,9,10)
ENSEMBL <- c("ENSG00000121410","ENSG00000175899","ENSG00000256069","ENSG00000171428","ENSG00000156006")
df <- data.frame(ENSEMBL,GENEID)
# ENSG转换Symbol
df$symbol <- mapIds(org.Hs.eg.db,
keys=ENSEMBL,
column="SYMBOL",
keytype="ENSEMBL",
multiVals="first")
```
已解决以下论坛问题:
求助:有关批量ensembl ID转换为symble,缩写名的问题
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
另外,我分享了一个目录:版内《生信问题及解决方案》目录汇总
旨在 完善知识体系、方便查询所需代码、减少搜索的时间;
~~~喜欢我的分享,请用丁当鼓励我吧!~~~~
如你想我发布其他的生信经验分享,可以私信留言给我,
我会不定期挑选一些发布在坛子里
~~~~~~~~~~~~~~~~~~~~~~~~~~~~
最后编辑于 2019-10-07 · 浏览 3.2 万