dxy logo
首页丁香园病例库全部版块
搜索
登录

非靶向代谢组学数据处理的基本流程

发布于 2019-09-11 · 浏览 3441 · IP 陕西陕西
这个帖子发布于 5 年零 243 天前,其中的信息可能已发生改变或有所发展。

非目标代谢组学流程中,首先对样品进行前处理,提取代谢物;之后使用MS或者NMR对这些代谢物进行检测获取原始数据;原始数据经过数据预处理之后转换成可供下一步数据分析的数据矩阵,通常在这个数据集中,行数对应样本的个数,列数对应变量(代谢物信号)的个数。接着,对数据集进行数据分析包括数据前处理和具体的统计分析,最终获得代谢标记物。本文就对数据分析的一般流程进行简单总结。

数据前处理:

数据的前处理要从QC样本的检测开始,通过对QC样本的检测来评价系统的稳定性,同时帮助研究者筛选数据。QC样本通常混合等量的所有样本来配制(非靶向代谢组学),或样本中添加已知的标准品来充当(靶向代谢组学)。具体的方法学考察的方法参看公众号之前的文章“非目标代谢组学中的方法学考察的方法”,为了方便查看,该文章将一并推送。在这一步中,不能满足要求的变量(质谱信号)将会从数据集中排除。

下一步则是对缺失值(missing value)进行评价。在代谢组学研究中,由于技术以及样本的原因可能会包含大约20%的缺失值,大量的缺失值的存在以及不同的缺失值填充的方法已被证明会对接下来的统计分析产生影响。常用的缺失值过滤方法为“80%规则”,也有其他的方法。此外,MetaboAnalyst网站(http://www.metaboanalyst.ca/MetaboAnalyst/)也介绍了几种缺失值填充的方法,可以参考。

在数据前处理中,还包括其他一些操作通过去除系统噪音信号,去除由系统不稳定引起的干扰信号,消除操作的误差等步骤来为下一步统计分析提供更加可靠的数据集。这些步骤主要包括,normalization,scaling,centering等。每一步的操作都有不同的方法,同时也有不同的顺序组合。不同的数据前处理方法被证明对统计分析的结果有很大影响。

统计分析:

第一步为非监督多元统计分析,通常使用PCA(主成分分析)。使用非监督分析有以下几个目的:

直观的观察被分析样本有无天然的分组

检查异常样本(在置信区间之外的点)

揭示研究中存在的隐藏的偏向性

展示样本分类的细节信息

这一步分析可以看作是一个数据质量控制的过程,如果样本点在score plot(得分图)中根据样本的分组展现出一定程度聚集,则证明数据的质量可信度。此外也可以在QC样本点被移除之前,通过观察QC样本点的空间分布来判断数据的质量,如果QC样本点紧密聚集则证明数据质量高。

在PCA分析之后,我们需要去除异常值(样本及变量),因此数据集的大小将会有所改变。通常来源于分析时程中,由于操作偏差引起的异常值需要从数据集中删除;但是,有些时候这些异常值可能并不是由于操作误差引起,可能代表了数据中一些新的发现,则这些数值需要保留用作进一步分析。

第二步可能进行单变量统计分析,来筛选在不同组别中差异有统计学意义的变量。单变量统计分析在分析数据时,数据之间相互独立;多变量分析则考虑数据之间的相互作用和相关性,因此二者可以提供不同的关于数据的信息。

使用单变量分析为多元统计分析进行数据的预先筛选是一个有争议的操作,一些研究者不建议这种筛选方式,另一些则推荐使用此方法,将筛选之后的化合物进行后续有监督分析。

单变量分析多也被用在有监督分析之后,来检测通过有监督分析选择出的标记物在不同组别之间的差异有无统计学意义。(目前多数都是这么使用)

第三步是有监督的多元统计分析如PLS-DA(偏最小二乘判别分析),用以选择对样本分类贡献较大的变量即筛选标记物。这一步可以作为数据分析的最后一步,或者在这一步之后接着做单变量统计分析来检测所筛选的化合物的差异有无统计学意义。需要注意的是,有监督模型建立之后需要进行模型的验证,如置换检验(permutation test,PLS-DA),交叉验证(cross-validation,OPLS-DA)等。


最后编辑于 2022-10-09 · 浏览 3441

1 39 5

全部讨论0

默认最新
avatar
1
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部