ID转换系列-GPL16686注释(一)
前言:我们都知道很多人在进行GEO数据库挖掘的时候,首先遇到的第一个痛点就是探针ID转换成gene symbol的问题,gene symbol因为被大家熟悉所以得到广泛采用。针对此问题,我进行了一个总结贴。欢迎大家跟帖,批评指正~
一般ID转换分为以下四个个办法:
使用GEO数据库提供的GPL文件(其次)
金标准当然是去基因芯片的厂商的官网直接去下载啦
使用bioconductor里面的芯片探针注释包(首推)
使用探针序列进行序列比对注释(以上办法都不能解决的时候)
现在讲解GPL16686平台注释
先去GEO官网看看这个芯片的情况:
第一种GEO下载注释文件方式:
第二种GEO数据库下载方式:通过GEO数据库ftp地址:https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL16nnn/GPL16686/
这个地址是有固定特征的,以后随便给你一个GPL号,你应该就能快速进入这个地址。或者生成下载链接。
ftp地址下有一个存放所有平台注释数据的文件夹
找到GPL16686
里面存放了两个格式的注释文件,一般是有三个的,如果没有文件格式比较小的,可以下载soft格式,但是这个数据很大,如果你的网速不好,可以直接放弃。
第三种:去芯片官网下载:http://www.affymetrix.com/support/technical/byproduct.affx?product=hugene-1_0-st-v1
注意:官网下载一定要先注册,不然下载下来的文件为空或者提示你压缩包已坏。
使用芯片名字进行搜索:HuGene-2_0-st-v1.na33.hg19.transcript.csv
至此,我们已经得到了注释文件,里面含有探针ID和GenBank数据库对应的编号,只要提取出来就可以分析了,后期GenBank数据库编号可以使用其他ID转换方法得到gene symbol。
但是!但是!但是!
如果你的网速不好,上面的文件下载是很有困难的(前面两个我都下载失败了,只有后面affy官网的注释文件下载成功了。)
这个时候,咋办?
有没有更好的办法?
最后编辑于 2020-07-11 · 浏览 7173