dxy logo
首页丁香园病例库全部版块
搜索
登录

5 步带你用 GEO2R 写出第一篇生信文章!

发布于 2022-07-18 · 浏览 3914 · IP 浙江浙江
这个帖子发布于 2 年零 288 天前,其中的信息可能已发生改变或有所发展。

各种编程软件让很多科研人对生信文章望而却步但其实用 GEOR2 分析工具就足以写出一篇生信了!火山图、平均差图、 UMAP 图、韦恩图、表达密度图、P 值直方图、样本分位数图、平均方差趋势图...用这个都能做!


在开始前推荐大家戳此👉收藏【生信分析入门】专题,内含免费视频教程+经验分享,超实用攻略每周不断更新~点击【订阅收藏】防走丢呀~

 

一、序列号检索

首先,进入 GEO 数据库官网:

https://www.ncbi.nlm.nih.gov/geo/

在 GEO 数据库检索框内输入你想要进行分析的芯片序列号,当然这里也可以直接按照关键词的方式来检索。我们以「GSE79973」为例,点击「Search」。如果这个芯片与多个平台相关联,那么就选择感兴趣的平台。

img

图片来源:网站截图

 

二、GEO2R 分析

在结果页面下拉,点击「Analyze with GEO2R」进行分析。这里大家要注意,GEO2R 主要是对芯片数据(array)进行分析,但不是所有系列数据都能用 GEO2R 工具进行分析。

比如,测序数据就不可以进行 GEO2R 分析,因此,在检索结果页面不会显示「Analyze with GEO2R」按钮。

img

图片来源:网站截图

 

三、设置分组

在「Samples」表格中,单击「Define groups」进行分组,输入要比较的样品组的名称,例如,「test」和「control」。

最多可以定义 10 个组。为了保证分析能够正常进行,必须至少定义两个组别。点击组名右侧的叉图标可以删除该组。对于 2 组比较,通常首先定义对照组,然后定义测试组。

img

图片来源:网站截图

 

四、样品分配

用鼠标单击样品栏突出显示相关的样本行,或使用「Ctrl」或「Shift」键,可以突出显示多行。之后,单击组名称以将那些样本分配给该组。其他组同样重复上述步骤。

注意:并不需要选择系列中的所有样品才能进行分析。本次我们以每组选择 4 个为例。

img

图片来源:网站截图

 

五、执行分析

将样品分配到组后,单击表格下方「Analyze」按钮以默认参数运行分析。或者,我们可以在「Options」中编辑默认分析参数。

例如,我们可以设置其他 P 值等。我们可以在不分配组别的情况下单击「分析」按钮,并检索得 UMAP,箱线图,表达式密度和平均方差趋势图。

这些图可以帮助您评估标准化状态和样本分组,也就是说,它们可以帮助我们确定研究是否适合进行进一步分析,以及是否对测试进行任何调整。

img

图片来源:网站截图

分析结果图形图表相结合,不仅以帮助可视化差异表达的基因还可以快速评估数据集质量。

1. 显著差异基因列表

结果显示为按 P 值排名的前 250 个基因的表格。P 值越小基因差异性越显著。单击其中某一行,可以显示该基因的基因表达谱图。

图形中的每个红色条形表示原始数据中该基因的表达量。图表底部还列出了样品的编号和组名。

如果想要查看包括排名前 250 个基因的所有差异基因以及基因的更多信息,可以点击「Download full table」链接下载完整数据表格,下载的表格可以在 Excel 中打开。

img

图片来源:网站截图

img

图片来源:网站截图

2. 火山图

图中每一个点代表一个基因,由 limma(volcanoplot)算法生成,火山图可以显示统计显著性(-log10 P 值)与变化幅度(log2 倍变化)的对比,可用于可视化差异表达的基因。

单击「Explore and download」链接可以下载高清原始图片。有颜色的点代表差异表达显著的基因,(红色 = 上调,蓝色 = 下调)。

我们可以在「Options」选项中设置火山图显示单个对比的测试结果(对比是一个样品组与另一个样品组的对比)。

因此,如果我们在分析中定义了两个以上的样品组,则会为每个对比组生成一个单独的图。

img

图片来源:网站截图

3. 平均差图

使用 limma(plotMD)包生成的平均差(MD)图可以显示 log2 倍数变化与平均 log2 表达值之间的关系,用于可视化差异表达的基因。类似于火山图,有颜色标记的基因表示显著差异表达(红色 = 上调,蓝色 = 下调)。

我们同样可以在「Options」中更改 P 值的设定。使用下载重要基因按钮可下载每种对比中突出显示的基因。

img

图片来源:网站截图

4. UMAP 图

使用 umap 生成的降维图可用于可视化样本之间的相互关系。

也可以在不选择「Samples」组的情况下生成此图,只需在定义组之前单击「Analyze」即可。这张图可以帮助判断,定义的两组样本是否整体上确实存在比较明显的差别。

比如,下图所示 test 和 control 的各自 4 例样本整体还是比较能分开,说明这两组之间在表达谱层面还是有比较明显的整体差异特征。

img

图片来源:网站截图

5. 维恩图

使用 limma(vennDiagram)算法生成,用于研究多个组别之间重要基因的重叠关系。可以下载维恩图上每个区域的基因。

但是这部分的分析具有一定的局限性:

最多可以绘制 5 个对比数据。当定义了 > 5 个组时,默认显示最高和最低表达基因数的对比。

img

图片来源:网站截图

6. 箱形图

使用 R boxplot 算法生成,用于查看所选样本的值分布。样品根据分组显示不同的颜色。

查看分布对确定我们选择的样本是否适合差异表达分析很有帮助。通常来说,以中位数为中心的值表示数据已标准化且可交叉比较。

如果显示未能标准化,可以考虑在「Options」中选中「Force normalization」选项进行强制规范化,从而使所有选定的 Samples 具有相同的值分布。

img

图片来源:网站截图

7. 表达密度图

使用 R limma(plotDensities)算法生成,表达密度图可用于查看所选 Samples 值的分布。是对箱型图数据的补充,用于在差异表达分析之前检查数据归一化,样品根据不同组别会显示不同颜色。

如果每个样品的密度曲线差异很大,则可以考虑在「Options」选项卡中选中「Force normalization」强制规范化。该图显示的是对数转换和归一化后的数据。

img

图片来源:网站截图

8. P 值直方图

使用 hist 算法生成,P 值直方图用于查看分析结果中 P 值的分布。此处的 P 值与之前最显著差异基因列表中的 P 值相同,并使用所有选定的对比度进行计算。

虽然显示的表格受大小限制(不能显示全部 250 个),但我们可以通过设置显示所有分析基因的 P 值分布来查看整图。

img

图片来源:网站截图

9. 样本分位数图

使用 limma(qqt)算法生成,根据 t 分布的理论分位数绘制数据样本的分位数。该图有助于评估 limma 测试结果的质量。

理想情况下,这些点应沿一条直线上,这会表明在测试过程中计算出的调节 t 统计量的值遵循其理论预测的分布。

img

图片来源:网站截图

10. 平均方差趋势图

使用 R limma(plotSA, vooma)算法生成,拟合线性模型后,平均方差趋势图可以检查表达数据的均值-方差关系。它可以帮助显示数据间是否变化过大。

当存在很强的均方差趋势时,精确权重可提高测试结果的准确性。该图不需要选择分组。每个点代表一个基因。红线是均值-方差趋势线,蓝线是固定方差近似值。

可以在不选择「Samples」组的情况下生成此图,只需在定义分组之前单击「Analyze」即可。

img

图片来源:网站截图


这么实用的超全攻略!不给点个收藏吗!

最后编辑于 2022-10-09 · 浏览 3914

2 36 4

全部讨论0

默认最新
avatar
2
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部