GEO入门教程 | 如何利用GEO数据库筛选适合自己的数据集
今天来给大家介绍一下💡如何去使用GEO数据库,以及怎样筛选适合自己的数据集。
01 什么是GEO数据库
GEO(GENE EXPRESSION OMNIBUS)数据库是由美国国立生物技术信息中心(NCBI)于2000 年创建的基因表达数据库,收录了世界各国研究机构提交的基因表达数据,主要包括肿瘤、非肿瘤、芯片、NGS、差异分析、分子验证等各种公开数据。

目前已发表的论文中涉及到基因表达检测的数据都可以通过 GEO 数据库找到,并且是免费使用。


02 GEO数据库中数据的四个层级
GEO数据库中的数据有四个层级,搞懂什么是GPL,GSE,GDS 和 GSM,也就搞懂了如何进行检索。
我们都知道,GEO这种大型数据库收录的数据又多又杂,在存放时就必然不能乱七八糟地存放,不然检索起来就会十分困难。
因此,官方将所有数据从大到小分为四个层级,分别是GPL,GSE,GDS 和 GSM,如下图所示:👇

1️⃣一个GPL ID对应一个实验平台的信息,包括芯片探针的设计和注释信息。
2️⃣一个GSE ID是指整个研究项目的系列数据,通常对应一篇完整的论文,会涉及一到多个实验平台(GPL)。
3️⃣一个GDS ID对应同一个实验平台的数据集,高质量的GSE数据集会被官网拆分、整理好放在Datasets和Profiles中。例如,Datasets中那些分析好的Series,编号会以GDS开头。而Profiles中则以基因为单位存储数据,是Datasets 各分组中的表达谱,分配的是流水号,例如33759453。
4️⃣一个GSM ID对应一个样本的表达数据信息,GSE,GDS 会包含多个GSM的数据,因为数据集肯定不止一个样本啊。
03 GEO实操(肺腺癌为例)
🔎检索方式
①通过NCBI官网进入GEO数据库(https://www.ncbi.nlm.nih.gov/)
选择GEO DateSets,可以直接输入疾病,例如做肺癌生存分析,输入“lung cancer survival”。

首先数据导入类型主要分为四种:datasets、series、samples和platforms,根据自己的需要选择,最常用的是series数据集显示格式。然后限定样品类型、作者和物种来源。然后可以根据样品数量进一步做数据集筛选(建议样品选多一点)。最后选择合适的数据集下载。

②使用Bing搜索 NCBI GEO直接进入GEO数据库( https://www.ncbi.nlm.nih.gov/geo/ )


🙋下面通过一篇文献给大家具体讲解一下:

📍首先找到文章中的数据来源

📍输入GSE数据编号,可以看到详细的研究信息

📍下载平台文件,点击“download full Table”进行下载


GEO提供了3种格式的数据:
1. SOFT formatted family file(s)
2. MINiML formatted family file(s)
3. Series Matrix File(s)
其中,“Series Matrix File(s)”是最重要的,基因表达值矩阵,用于数据分析

GSE76882_RAW.tar是原始数据集,可以根据自己的需求进行下载

一般高通量下游数据是在数据集介绍页面的补充文件中进行下载。原始上游数据不同作者上传差别很大,要对应的文件名或对应文献,其他部分无用数据不用下载。
好啦,今天的内容就分享到这里啦,如果存在任何疑问欢迎关注玖科医学公众号添加科研助手咨询,我们都会一对一为你解答。
相关推荐:
揭秘!国自然评审专家内幕:这六大领域应用类器官研究可以轻松拿A
最后编辑于 2024-07-30 · 浏览 8310