dxy logo
首页丁香园病例库全部版块
搜索
登录

GEO入门教程 | 如何利用GEO数据库筛选适合自己的数据集

发布于 2024-07-30 · 浏览 8310 · IP 广东广东

今天来给大家介绍一下💡如何去使用GEO数据库,以及怎样筛选适合自己的数据集。


01 什么是GEO数据库


GEO(GENE EXPRESSION OMNIBUS)数据库是由美国国立生物技术信息中心(NCBI)于2000 年创建的基因表达数据库,收录了世界各国研究机构提交的基因表达数据,主要包括肿瘤、非肿瘤、芯片、NGS、差异分析、分子验证等各种公开数据


img

目前已发表的论文中涉及到基因表达检测的数据都可以通过 GEO 数据库找到,并且是免费使用。


img
img

02 GEO数据库中数据的四个层级


GEO数据库中的数据有四个层级,搞懂什么是GPL,GSE,GDS 和 GSM,也就搞懂了如何进行检索。


我们都知道,GEO这种大型数据库收录的数据又多又杂,在存放时就必然不能乱七八糟地存放,不然检索起来就会十分困难。


因此,官方将所有数据从大到小分为四个层级,分别是GPL,GSE,GDS 和 GSM,如下图所示:👇


img

1️⃣一个GPL ID对应一个实验平台的信息,包括芯片探针的设计和注释信息。


2️⃣一个GSE ID是指整个研究项目的系列数据,通常对应一篇完整的论文,会涉及一到多个实验平台(GPL)。


3️⃣一个GDS ID对应同一个实验平台的数据集,高质量的GSE数据集会被官网拆分、整理好放在Datasets和Profiles中。例如,Datasets中那些分析好的Series,编号会以GDS开头。而Profiles中则以基因为单位存储数据,是Datasets 各分组中的表达谱,分配的是流水号,例如33759453。


4️⃣一个GSM ID对应一个样本的表达数据信息,GSE,GDS 会包含多个GSM的数据,因为数据集肯定不止一个样本啊。


03 GEO实操(肺腺癌为例)


🔎检索方式


①通过NCBI官网进入GEO数据库https://www.ncbi.nlm.nih.gov/


选择GEO DateSets,可以直接输入疾病,例如做肺癌生存分析,输入“lung cancer survival”。


img

首先数据导入类型主要分为四种:datasets、series、samples和platforms,根据自己的需要选择,最常用的是series数据集显示格式。然后限定样品类型、作者和物种来源。然后可以根据样品数量进一步做数据集筛选(建议样品选多一点)。最后选择合适的数据集下载。


img

②使用Bing搜索 NCBI GEO直接进入GEO数据库 https://www.ncbi.nlm.nih.gov/geo/


img
img

🙋下面通过一篇文献给大家具体讲解一下:


img

📍首先找到文章中的数据来源


img

📍输入GSE数据编号,可以看到详细的研究信息


img

📍下载平台文件,点击“download full Table”进行下载


img
img

GEO提供了3种格式的数据:


1. SOFT formatted family file(s)

2. MINiML formatted family file(s)

3. Series Matrix File(s)


其中,“Series Matrix File(s)”是最重要的,基因表达值矩阵,用于数据分析


img

GSE76882_RAW.tar是原始数据集,可以根据自己的需求进行下载


img

一般高通量下游数据是在数据集介绍页面的补充文件中进行下载。原始上游数据不同作者上传差别很大,要对应的文件名或对应文献,其他部分无用数据不用下载。


好啦,今天的内容就分享到这里啦,如果存在任何疑问欢迎关注玖科医学公众号添加科研助手咨询,我们都会一对一为你解答。


相关推荐:

揭秘!国自然评审专家内幕:这六大领域应用类器官研究可以轻松拿A

国自然又一个学部,2个学部“面青地”项目专家评审结果出炉!(附国自然中标标书下载)

【热议】国自然评审意见都是好评,为什么我还是被刷了?

R可视化——一文带你打通ggplot2个性化绘图!

肺腺癌 (144)

最后编辑于 2024-07-30 · 浏览 8310

回复2 点赞

全部讨论0

默认最新
avatar
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部