【应用】你们想要的LC非靶代谢组学生信分析解读来啦!
LC非靶向代谢组学(Untargeted metabolomics)是指采用 LC-MS技术,针对极性较强、易电离、难挥发的代谢物,将对照组和实验组的代谢组进行比对,并通过生信分析筛选差异代谢物,对差异代谢物进行通路分析,揭示其变化的生理机制,可为疾病标志物开发,疾病发病机制和药物治疗机制等研究提供线索和方向。
下面简单介绍一下非靶代谢的生信分析模块,主要分为数据分析和功能注释两部分。数据分析包含全局分析、主成分分析、差异分析、标志物筛选等;功能注释包括信号通路分析和富集通路分析。
数据分析
1)QC相关性热图
如图,每个格子的颜色代表代谢物与其他代谢物的相关系数。相关系数越接近于 1,代表 QC 样本间越接近,代表检测数据越稳定,实验质控效果好。若有相关性弱或负相关,代表实验过程中样本处理、仪器检测等过程可能出现异常, 应当对异常 QC 附近的样本重新测定。QC相关性热图是数据可靠性的一个指标。

2)全局热图分析
如下图,横坐标代表样本编号及聚类关系,纵坐标代表代谢物的聚类关系。红蓝颜色此物质表达量的高低。

3)全局主成分分析(PCA)
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。对于表达数据而言,则是设法将所有代谢变量依据其表达量关系重新组合成一组新的互不相关的几个综合变量,同时根据实际需要从中取出少数几个综合变量以尽可能多地反映原来变量的信息的统计方法叫做主成分分析,也是数学上用来降维的一种方法。
该方法可以反映在降维后的少数几个主成分对样品的区分情况。横纵坐标分别为前两个主成分,括号内的百分比为该主成分能解释的变量的百分比(也即能解释的代谢数量的百分比)。图中 QC 样本点彼此靠近、相互聚集的程度越高,提示仪器检测的稳定性越好。PCA 分析本身属于无监督的方法,有助于观察数据本身的特征。图中横坐标PC1、纵坐标PC2分别表示排名第一和第二的主成分的得分,不同颜色的散点表示不同实验分组的样本,椭圆为95%的置信区间。

差异代谢筛选
1)通过 PCA 的方法,观察两组样本之间的总体分布趋势。
图中横坐标PC1、纵坐标PC2分别表示排名第一和第二的主成分的得分,不同颜色的散点表示不同实验分组的样本,椭圆为95%的置信区间。

2)PLS-DA偏最小二乘判别分析
PCA 有时并不能展现出很明显的组间分离趋势,尤其是对于背景复杂、影响因素较多的临床样本。这些影响因素会造成数据集中包含了很多和分组无关的噪音。此时需要有监督的分类模型,如用 PLS-DA 分析两组或多组间差异,或用 OPLS-DA 区分两组间差异。PLS-DA 按照预设的分组,相比于 PCA 能够进一步突出组间差异,适用于多组间的代谢轮廓对比。但对于两组之间的建模及差异代谢物筛选,通常会选择更易于解释的 OPLS-DA 模型,并对模型作严格的验证。


3)为了进一步区分两两分组间的代谢谱差异,可运用有监督的判别模型——正交偏最小二乘法判别分析
(OPLS-DA)进行分析,通过过滤和分组无关的噪音信号,OPLS-DA 可以更好地聚焦于预期关注的生物学信息。通过观察打乱前的原始模型在 1000 次随机打乱样本的随机置换检验(Permutation test),分别计算各次打乱后模型的 Q2Y 和 R2Y,绘制置换检验图,图中横坐标代表打乱后样本分组和打乱前的样本分组的Spearman 相关系数。通常模型的 Q2Y≥0.4 被认为是模型可信的标准。OPLS-DA 得分图如图所示,横坐标代表模型的第一主成分,纵坐标代表模型的第一正交成分。百分比代表成分的解释率。不同颜色的点代表不同分组的样本。



4)采用PLS-DA模型第一主成分的变量投影重要度(Variable Importance in the Projection, VIP)值,VIP值表示不同分组中代谢物差异的贡献率。

5)被用于筛选可靠的代谢标志物,火山图综合考察了代谢物对模型分组的贡献VIP值(VIP>1)。
火山图可直观显示差异代谢物的整体分布情况,横坐标表示代谢物在不同分组中的表达倍数变化 (log2FoldChange),纵坐标表示差异显著性水平(-log10p-value),火山图中每个点代表一个代谢物,显著上调的代谢物用红色点表示,显著下调的代谢物用绿色点表示。横向虚线指示 P = 0.05 取对数对应的虚线,纵向虚线指示 FC 阈值取对数对应的虚线。同时满足在横向虚线上方和纵向虚线两侧的点会高亮显示,其中右侧的红色高亮表示上调,左侧的绿色高亮表示下调。蓝色点表示未达到设定阈值要求。

6)Z-score分析
定量值在进行中值归一化后得到文件的结果,差异倍数(Fold Change,FC)为每个代谢物在比较组中所有生物重复定量值的均值的比值;并结合T-test的P值来寻找差异性表达代谢物;设置阈值为 VIP > 1.0,差异倍数FC > 2.0 或 FC < 0.5 且P value< 0.05, 筛选出差异代谢物。score(标准分数)是基于代谢物的相对含量转换而来的值,用于衡量同一水平面上代谢物的相对含量的高低。Z-score 的计算是基于参考数据集(对照组)的平均值和标准差进行的,具体公式表示 为:z = (x – μ) / σ。其中 x 为某一具体分数,μ为平均数,σ为标准差。获取 Z 得分后绘制分栏的点图如下。每个点对应一个样本,点的颜色代表分组,通过 Z 得分图可以观察组间差异代谢物的分布情况。横坐标为Z-score值,纵坐标为代谢物。每个点对应一个样本,点的颜色代表分组。

7)不同代谢物之间具有协同或互斥关系
比如某类代谢物变化趋势相同,则为正相关;与某类代谢物变化趋势相反,则为负相关。差异代谢物相关性分析的目的是查看代谢物与代谢物变化趋势的一致性,通过计算所有代谢物两两之间的皮尔逊相关系数来分析各个代谢物间的相关性。当两个代谢物的线性关系增强时,正相关时趋于1,负相关时趋于-1。同时对代谢物相关性分析进行显著性统计检验,选用显著性水平P-value< 0.05为显著相关的阈值。

8)ROC曲线
使用 Logistic 回归分析分别对每个“潜在生物标志物”绘制受试者工作特征曲线(Receiver operating characteristic curve,ROC),可以查看每个“潜在生物标志物”对结果的单独影响,各个代谢物 ROC 曲线的曲线下面积(Area Under Curve, AUC),各个代谢物单独进行预测的ROC 曲线见可以综合反映分析/判别方法的敏感性和特异性。

9)S-plot图
为可视化OPLS-DA载荷,将散点图中的OPLS-DA模型的建模协方差和建模相关性相结合,如果数据X具有峰值强度的变化,则该图将看起来像S。p1轴将描述X中每个变量的大小,p1(corr)轴表示X中每个变量的可靠性,p1(corr)轴始终在±1之间。理想的生物标志物具有高幅度/强度和高可靠性,横坐标p1轴将描述X中每个变量的大小,纵坐标p1(corr)轴表示X中每个变量的可靠性。

功能注释
1)KEGG分析
KEGG (Kyoto Encyclopedia of Genes and Genomes) 是京都基因与基因组百科全书,由日本京都大学生物信息学中心的 Kanehisa 实验室于 1995 年建立。 KEGG 整合了基因组、化学和系统功能信息的数据库,是国际最常用的生物信息数据库之一,以“理解生物系统的高级功能和实用程序资源库”著称。 KEGG 把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统平的系统功能关联起来,形成知识库。 这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。 与其他数据库相比, KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。

2)通路富集分析
如以下示例图为 KEGG pathway 的所有鉴定蛋白的富集结果,横坐标是比值,纵坐标是各个 GO 词条,颜色代表富集度(-log10(Pvalue)),圆圈大小表示代谢数目。

3)KEGGclass 分类图
图中横坐标是该类 pathway 上注释的代谢物数目占注释到 KEGG 数据库中的代谢物的比例,纵坐标是 pathway 类别,数字为注释到该 pathway 的 代谢物数目,相同颜色的 pathway 属于同一个大类。

4)HMDBclass 分类图
图中横坐标是该类 pathway 上注释的代谢物数目占注释到 HMDB数据库中的所有代谢物数目的比例,纵坐标是 pathway 类别,数字为注释到该 pathway 的代谢物数目,相同颜色的 pathway 属于同一个大类。

最后编辑于 2022-10-09 · 浏览 1421