GO分析IPA分析GSEA分析大致理解
三个基本要素:RNA profile, 基因集,分析方法
KEGG,GO等只是基因集合,不是分析方法。人约有20000个基因,p53通路约200个基因,这200个基因就是一个基因集,KEGG里大概有数百个个这样的基因集,各种信号通路都是一个基因集,KEGG,GO等都可以认为是基因集(gene sets)的集合(collection)。
做了RNA profile后,评估控制因素 对基因集的影响。大概有三种方法
1.最简单的是富集分析,也就是常说的GO分析,KEGG分析采用的方法。 大致意思,你的数据里共20000个基因,有5000差异基因. p53基因集有200个,那么在这200个基因中,那么期望上有50个基因是差异的,实际上确有100个。这像不像典型得卡方检验四格表?这个p值就是用类似卡方检验/二项分布的方法得出的。
该方法只看有没有差异表达,不看差异表达的程度和方向。
2.进阶版的是IPA中Z score. 大致意思:在p53的200个基因中,理论上哪些应该上调,哪些应该下调(先验知识)。而实际芯片中是否与之对应。一致的计为1,不一致的计为-1,没变化的计算为0,然后求和。求和后除以200的平方根,结果有正负。
该方法参考了差异表达和差异表达的方向,但没有参考不同基因的权重。
3.GSEA 使用的方法 GSEA要复杂些,不但计算差异表达,还要根据FOLDchange(常用)进行排名(有正负),FoldChage会赋予不同基因不同的权重,然后根据权重计算累计Enrichment score.
大致是先计算所有基因的FoldChange(上调为正,下调为负),然后从高到底排名,并标示出基因集(比如P53通路)在排名中的位置,然后进行累加,在基因集合内则根据Fc权重增加相应的数值,不在则减去一个很小的数(权重很小),所以GSEA图上的那条曲线是锯齿状波动的。理想的情况下,是基因集(比如P53通路)的基因主要分布在排名的两端(leading edge),GSEA图上包含足够多的信息。
该方法使用 差异表达,基因权重,也由差异方向信息。
做了RNA profile后,需要选择一种基因集(或者基因集的colleciton),选择一种分析方法, 运行软件。
以上是大致理解,实际上的统计分析要考虑更多因素。















































