小鬼的绘图人生三境界《一》
小编见过太多网上的教程:世人都只教你如何绘图(细心的贴出一堆代码),却不告诉你这幅图作何解释。
王国维《人间词话》中提到了人生三境界:
古今之成大事业、大学问者,必经过三种之境界:‘昨夜西风凋碧树。独上高楼,望尽天涯路’。此第一境也。‘衣带渐宽终不悔,为伊消得人憔悴。’此第二境也。‘众里寻他千百度,蓦然回首,那人却在,灯火阑珊处’。此第三境也。
小编戏称作图也有三个境界:画,看,归纳总结。
画,我们就不说了,网上随便一搜很多帖子很多高手都会教你如何绘制一幅精美的MA图。
这里我们今天讲第二个境界:看。
以常见的MA图为例进行说明。
看图说话应该是小学一开始学习语文时就获得的技能,那么你还记得自己第一篇看图说话的作文是什么么?好了,言归正传,从上面这幅图中你能得到一些什么信息?小编下面来好好给你剖析一下这幅图(表演开始),如有理解错误,还请各位大侠批评指正。
1,Title
标题为MA plot,告诉你这是一幅MA图
2,点的形状
这里只有一种形状,实心点,每一个点代表一个基因密密麻麻这么多,说明基因的个数还挺多的,约莫估计一下两万多个?(如果你看过了很多张并且是不同分子的MA图,你会发现还有些MA图的点很少,想一下为什么呢?)
3,颜色
细看图中你发现了三种颜色,嗯,根据图注,红色代表显著上调的差异表达基因,绿色代表下调,黑色代表不显著差异表达的基因。
再深一层,红色和绿色的点好像都很少,黑色的点占了大部分,说明根据筛选阈值,这里筛选出来的显著差异表达基因很少。
4,坐标轴
横轴代表log2转换过的FPKM值,范围估计从约-10到18左右,也即log2(FPKM=0.001)~log2(FPKM=400000),也就是说我们从横坐标观察可以看到gene的FPKM水平分布范围约为0.001-400000。
再细致一点,从左到右,你会发现左右两边的点都很少,大多数的点都在0左右的位置,那么说明很多基因的FPKM值都在1左右,而FPKM很低或者很高的基因都是少数几个基因。
纵轴代表log2转换过的FC值,范围估计-10到10左右,与横坐标类似,经过转换后,FC的范围分布为0.001-1000。
再细致一点,从下到上,FC值很大或者很小的基因也都很少,大多数的基因的差异倍数都在1附近左右。
5,结合横坐标和纵坐标
综合横坐标和纵坐标,我们会发现,表达水平很高或者很低的基因的FC值在1附近。表达水平在0.02~100(-5~6)的基因的FC值分布较为分散,横跨了整个纵坐标轴。
6,结合颜色和横纵坐标轴
我们发现显著差异表达的基因分布在FPKM为0.02-100,FC在纵坐标的两侧或高或低。
是不是一下子得到了颠覆,我居然从一幅简单的MA图可以得到这么多信息?
是不是陡然间觉得自己以前好像从来没有仔细认真看过这幅图?
太多人只知其然,不知其所以然。
小编今天就剖析到这里了,其实图中还可以剖析到一些信息,比如小编在这里给你留下疑问:
1,既然图中的每一个点代表一个基因,我们知道在分析差异表达的时候,是一组样本对应一组样本的分析,那么这里横坐标的FPKM值是一个样本中的表达值呢还是所有样本中表达值的均值亦或是其他什么值呢?
2,既然有这么多基因,我的FC值分布又比较扩散,为什么显著表达的基因这么少呢?
3,我们为什么不直接用FPKM或者FC值来表示横坐标或者纵坐标而要将它经过log转换之后再进行绘图呢?
我们在下期画图三境界之归纳总结中见~