dxy logo
首页丁香园病例库全部版块
搜索
登录

GO分析IPA分析GSEA分析大致理解

神经外科医师 · 发布于 2019-01-23 · IP 陕西陕西
1.4 万 浏览
这个帖子发布于 6 年零 289 天前,其中的信息可能已发生改变或有所发展。

三个基本要素:RNA profile, 基因集,分析方法

KEGG,GO等只是基因集合,不是分析方法。人约有20000个基因,p53通路约200个基因,这200个基因就是一个基因集,KEGG里大概有数百个个这样的基因集,各种信号通路都是一个基因集,KEGG,GO等都可以认为是基因集(gene sets)的集合(collection)。

做了RNA profile后,评估控制因素 对基因集的影响。大概有三种方法

1.最简单的是富集分析,也就是常说的GO分析,KEGG分析采用的方法。 大致意思,你的数据里共20000个基因,有5000差异基因. p53基因集有200个,那么在这200个基因中,那么期望上有50个基因是差异的,实际上确有100个。这像不像典型得卡方检验四格表?这个p值就是用类似卡方检验/二项分布的方法得出的。

该方法只看有没有差异表达,不看差异表达的程度和方向。

2.进阶版的是IPA中Z score. 大致意思:在p53的200个基因中,理论上哪些应该上调,哪些应该下调(先验知识)。而实际芯片中是否与之对应。一致的计为1,不一致的计为-1,没变化的计算为0,然后求和。求和后除以200的平方根,结果有正负。

该方法参考了差异表达和差异表达的方向,但没有参考不同基因的权重。

3.GSEA 使用的方法 GSEA要复杂些,不但计算差异表达,还要根据FOLDchange(常用)进行排名(有正负),FoldChage会赋予不同基因不同的权重,然后根据权重计算累计Enrichment score.

大致是先计算所有基因的FoldChange(上调为正,下调为负),然后从高到底排名,并标示出基因集(比如P53通路)在排名中的位置,然后进行累加,在基因集合内则根据Fc权重增加相应的数值,不在则减去一个很小的数(权重很小),所以GSEA图上的那条曲线是锯齿状波动的。理想的情况下,是基因集(比如P53通路)的基因主要分布在排名的两端(leading edge),GSEA图上包含足够多的信息。

该方法使用 差异表达,基因权重,也由差异方向信息。

做了RNA profile后,需要选择一种基因集(或者基因集的colleciton),选择一种分析方法, 运行软件。

以上是大致理解,实际上的统计分析要考虑更多因素。

12 100 22

全部讨论(0)

默认最新
avatar
12
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部