【功能代谢组学】O2PLS模型关联分析
前言
O2PLS模型用于两个数据组间的整合分析,包括系统生物学组学间关联、分子调控机制-表型间关联等各种大数据组的内在联系都可通过此模型进行整合分析。该模型一方面可反映不同数据组间的整体关联,另一方面可直接体现不同变量在模型中的权重。不同于常用的相关性系数计算,通过O2PLS模型不仅可获得变量间的相关性系数,更重要的是获得变量在模型中的权重,从而更加精准地发现关键调节现象。O2PLS为非监督建模,可客观描述两数据组间是否存在关联趋势,从源头上避免假阳性关联。由O2PLS模型可灵活进行组学数据挖掘,发现不同层面的调节信息,从而有助于建立系统生物学调节网络。
数据结构简介
O2PLS模型关联分析需具备以下数据:
组学数据A:代谢组、转录组、菌群分布等各种定量的多元变量数据组;
组学数据B:与A数据相同样本来源的另一类具有潜在关联性的组学数据(样本必须一一对应,如同一病人的血清样本和尿液样本、同一细胞的脂肪酸组数据和脂质组数据等)。
可分析数据组示例:
血清样本蛋白组(组学数据A)和转录组学(组学数据B);
粪便代谢组(组学数据A)和菌群分布数据(组学数据B);
血清代谢组学(组学数据A)和尿液代谢组学(组学数据B);
血清样本(组学数据A)和组织样本(组学数据B);
植物组织代谢物(组学数据A)和植物表型数据(组学数据B)。
分析可获得的结果如下:
两组数据间关联性判断(通过模型质量);
两组数据间一致信息和重要相关变量展示(O2PLS得分图和载荷图);
处理条件对两组数据间的影响方式(SUS2图);
重要相关变量相关性系数和散点图展示 。
模型的建立、功能和意义
O2PLS模型分析可区分为两类:
A. 同一样本,不同角度研究(来自同样实验对象的血清代谢组和尿液代谢组数据,考察系统性代谢现象;或针对正常和疾病人群血清样本,进行代谢组和转录组考察):
通过是否可建立O2PLS模型,判断数据组间是否存在关联性;
通过得分图判断结合两组数据是否可反映样本宏观特征(聚类、分组);
通过载荷图判断不同数据组中相关性和权重都比较高的变量。
B. 通过两数据组在不同条件下的调节是否可建立O2PLS模型,判断数据组在不同条件下的调节间是否存在关联性:
对不同实验条件下的各组样本分别建立O2PLS模型;
考察不同组间的SUS2图(整合两个O2PLS模型的载荷图),发现各组间随处理条件变化而改变的变量(代谢物、基因、菌群等指标)。
图1 分析流程示意图
实际分析案例图表示例
图2 关联结构分析
通过模型参数考察确定量数据组中关联信息(Predictive)、正交信息(Unique)和噪音(Residual)的占比,从宏观上把握两组数据间的关联强弱和特征。
图3 O2PLS模型的载荷图分析
通过得分图考察不同数据组对样本分布的影响情况;通过载荷图考察不同数据组变量间相关性(变量点间距离)和影响程度(变量载荷值大小)。
图4 关键变量间相关性分析
通过相关性系数(用颜色表示),显示两组数据中重要变量间的关联程度。
图5 整合分析后的SUS2图
横纵坐标分别代表变量在不同实验条件下的载荷值。变量离对角线越近,表明在两个条件下差异越小;远离对角线者,为显著变化的变量;在本例中,由左右两图对比可发现:RSV处理后,左图中HC组DG类物质发生变化(远离对角线),右图中DG类物质在RSV和Cnt中相似(接近对角线),表现RSV处理使DG类物质恢复至Cnt水平。
应用场景
多组学关联调节现象分析:宏基因-代谢组、代谢组-转录组、脂质组-脂肪酸组等;
同一来源的不同样本(不同部位、指征等)之间的系统性变化发掘;
代谢物-表型影响关系发掘;
中药材质量分析(代谢组和光谱数据整合分析)。
参考文献
【1】Koufaris C, Valbuena G N, Pomyen Y, et al. Systematic integration of molecular profiles identifies miR-22 as a regulator of lipid and folate metabolism in breast cancer cells. Oncogene, 2016, 35(21):2766.
【2】Turner M F, Heuberger A L, Kirkwood J S, et al. Non-targeted Metabolomics in Diverse Sorghum Breeding Lines Indicates Primary and Secondary Metabolite Profiles Are Associated with Plant Biomass Accumulation and Photosynthesis.Front Plant Sci, 2016, 7(59).
【3】Copley T R, Aliferis K A, Kliebenstein D J, et al. An integrated RNAseq-1H NMR metabolomics approach to understand soybean primary metabolism regulation in response to Rhizoctonia foliar blight disease. Bmc Plant Biology, 2017, 17(1):84.
【4】Kirwan G M, Johansson E, Kleemann R, et al. Building Multivariate Systems Biology Models. Analytical Chemistry, 2012, 84(16):7064-7071.
【5】Shi Q, Zhao H, Chen J, et al. Study on qi deficiency syndrome identification modes of coronary heart disease based on metabolomic biomarkers. Evidence-based complementary and alternative medicine, 2014(3):281829.
----------------------------------------索取需要SIMCA试用装-----------------------------------------------
最后编辑于 2017-12-08 · 浏览 1.5 万