Nat Commun | 人类血浆蛋白组和基因突变在肥胖症中的作用

● 期刊:Nature Communications
● 发表时间:2021.02.24
● 影响因子:12.121
一、前言
血液循环蛋白是发生在不同组织和器官的生物过程的复杂信号,渗透整个有机体,并可能参与或直接调控复杂疾病,如肥胖或糖尿病。与此同时,许多蛋白质也受到大量的遗传控制。Nature Communications杂志今年2月发表了德国威尔康乃尔医学院生理学和生物物理学系的最新研究,找到了与遗传基因和肥胖相关的一些标志性蛋白,为由于BMI增加和肥胖而发生的系列分子机制提供了生物学解释。
二、研究设计
这项研究一共调查了超过1000个血液循环蛋白和身体质量指数(BMI)、以及基因组评分(GPS)之间的关系,纳入了三个研究队列4600多名参与者的蛋白组、BMI和基因组SNP数据。

图1
队列1:KORA F4 996人
队列2:QMDiab 356人
队列3:INTERVAL 3301人
三、研究结果
1.在921个血液蛋白中,有152个测定的血液蛋白水平与BMI相关
经过严格的质量控制,一共有921种蛋白在三个队列中同时被鉴定出来(KORA、INTERVAL和QMDiab)。虽然没有在三个队列中同时发现,但也将瘦素(LEP)和瘦素受体(LEPR)蛋白纳入了后续分析,因为它们在肥胖中的作用已得到充分研究。
没有观察到吸烟和饮酒对BMI指数造成显着差异(p <0.001);使用年龄和性别作为线性回归的协变量,在KORA中进行蛋白质范围的关联研究,在保守的Bonferroni校正后发现血液循环蛋白水平与BMI之间存在184个关联(p <5.43×10-5)。总共有107种蛋白质与BMI呈负相关,77种呈正相关(图2)。另外还测试了许多潜在的混杂因素对BMI-蛋白质关联的影响,特别是吸烟状况,饮酒,体力活动和糖尿病状态。没有观察到这些因素对BMI-蛋白相关性有任何实质性影响,并且与仅年龄和性别作为协变量的模型相比,在完整模型中发现的所有Bonferroni显着的蛋白质BMI关联仍然很显著。

图2.蛋白质与体重指数的相关性
火山图展示了线性回归模型(使用年龄和性别作为协变量)显示的KORA中BMI与血浆蛋白水平之间的关系。除了151个BMI显着相关的蛋白(红色)外,瘦素蛋白与BMI相关最强(p = 3.34×10−136)。
利用已发表的INTERVAL相关性证实了BMI -蛋白的相关性,并试图在多种族QMDiab研究中复制这184种相关性。在184个蛋白中,经Bonferroni校正后,有150个BMI -蛋白相关性(81.5%)在INTERVAL队列中被复制,(p<2.72×10−4)。在QMDiab中,37个(20.1%)的BMI -蛋白关联在Bonferroni校正后被复制,而另外有131个(71.2%)蛋白的关联趋势是一致的,但没有足够的相关强度。
总共有152个BMI-蛋白关联在至少一项研究中被复制——35个关联在两项研究中重复,115个关联仅在INTERVAL中重复,两个关联仅在QMDiab中重复(THBS2和ANGPT2)。
2.BMI多基因评分与BMI的关联
使用先前研究的突变类型和权重为996名KORA和353名QMDiab队列的参与者计算了BMI的多基因评分 (GPSBMI),并计算GPSBMI与BMI关联的强度。在KORA中,GPSBMI与BMI有很强的相关性(p = 2.32 × 10−43),在多种族QMDiab研究中也有显著的相关性(p = 5.54 × 10−4)。
经过多次检测,有19个蛋白与KORA中的GPSBMI相关(p <5.43×10−5)。所有19个GPSBMI相关蛋白在KORA中也与BMI有很强的相关性(表1)。BMI-蛋白相关性和GPSBMI -蛋白相关性的回归系数是定向一致的。与BMI相关性最强的蛋白质(瘦素LEP;p = 3.34 × 10−136)同样与GPSBMI的相关性最强(p = 1.32 × 10−12),其次是IGFBP1、IGFBP2、SERPINE1和WFIKKN2。

表1.与BMI和GPSBMI显著相关的蛋白质
3.极端的BMI多基因评分可识别5%人口的19种蛋白质组学特征
有趣的是,GPSBMI和BMI之间的相关性并不是线性的。在分布的极端情况下,效应估计要强得多(图3),这与先前关于这种尾部效应的报告一致。
为了评估这种尾部效应,我们根据GPSBMI百分位对996个KORA研究样本进行了分层。我们发现,在分布的上下两个极端,BMI和一些蛋白质指标(LEP、WFIKKN2和IGFBP1)的斜率更陡。

表1.根据GPSBMI十分位数对KORA样品进行分层
(在上十分位数和下十分位数,BMI (a)和各种蛋白质测量值(B-D)都有一个陡峭的斜率。LEP与BMI呈上升趋势,IGFBP1和WFIKKN2呈下降趋势。中心点是蛋白质的平均值,误差条是95%的置信区间。)
为了研究是否可以在GPSBMI和血液循环蛋白之间观察到类似的尾部效应,我们比较了所有蛋白质的GPSBMI分布的不同百分位数的不同效应大小和显著水平,包括整个数据集(N = 996),第25和75个百分位数,第20和80个百分位数,第15和85个百分位数,第10和90个百分位数,第5和95个百分位数。我们发现,与完整数据相比,GPSBMI对LEP、IGFBP1和WFIKKN2的影响在种群的5%尾部几乎翻了四倍(图4)。在GPSBMI分布的极端尾部的个体显示出过度肥胖的遗传倾向。

图4.极端的GPSBMI是导致蛋白质水平和BMI升高的一个强有力的危险因素
(与整体相比,GPSBMI线性回归模型对A.WFIKKN2、B. IGFBP1和C. LEP的影响在5%的样本中几乎增加了四倍。中心是回归系数(beta),误差条是95%的置信区间)
4.孟德尔随机化分析
为了评估蛋白质是否受到BMI方向的因果影响(BMI-to-protein,或protein-to-BMI),我们进行了双向孟德尔随机化分析。我们首先在两个方向都进行了一个样本(1SMR)和两个样本(2SMR)孟德尔随机化分析(表2)。1SMR的MR分析结果采用2SLS方法,2SMR的MR分析结果采用IVW方法。
在BMI-to-protein的方向上,1SMR比2SMR具有更高的统计能力。在protein-to-BMI方向上则是相反的。由于BMI数据是根据大规模GWAS与BMI的不同权重生成的,而蛋白组数据仅来源于KORA队列,受数据来源的队列规模影响,所以这样的结果都是可信的。因此,我们将1SMR在BMI-to-protein方向上重点分析,而2SMR则应用在在protein-to-BMI方向上。

表2.大量证据表明BMI和蛋白质之间存在双向关系
总结了两个方向(BMI-to-protein和protein-to-BMI)的MR分析,带有*的条目经Bonferroni校正后有显著意义。
5.BMI是其中24种蛋白的潜在原因
1SMR方法可以研究BMI与152种复制的血浆蛋白之间的潜在因果关系。我们的分析表明,经过多次测试校正后,BMI对24种蛋白质的影响存在因果关系(p < 3.29×10−4)。

图5. 1SMR分析(KORA)中不同蛋白质的BMI因果关系预测森林图
使用2SLS方法,BMI对152个重复蛋白中的24个有因果影响
6.28个与BMI相关的蛋白的生物学作用
为了研究GPSBMI相关蛋白编码基因与肥胖的组织特异性作用,我们使用了来自人类和小鼠的组织RNA-seq表达数据——基因型组织表达(GTEx)数据库和基因表达数据库(GXD) (C57BL/6J株)。结果发现,在28个蛋白质中有20个来自GTEx,即在人体或小鼠体内的表达都具有组织特异性。个别蛋白可以调节TGFB超家族成员,TGFB超家族产生于脂肪组织,并参与调节脂肪,而已知肥胖会改变其表达水平。
使用MGI数据库鉴定了编码同源/相应蛋白质的基因的小鼠直系同源物,发现有26个蛋白质具有同源性。我们观察到脂肪,肝脏和脑组织基因表达与许多基本肥胖性状之间存在相关性(R> 0.1,p值<0.05),包括身体脂肪成分,骨密度,胰岛素和各种脂质性状,例如LDL,HDL,胆固醇,甘油三酸酯等(图6)。Wfikkn2与脂肪和脑组织中的甘油三酯和脂类有关,Wfikkn2与脑组织中甘油三酯和总脂肪的相关性之前有过报道。总的来说,蛋白质之间的相关性相似,但脂肪组织中的相关性强于肝脏和脑组织。
最后,为了确定潜在的治疗肥胖的药物靶点,使用DrugBank数据库来搜索现有的针对6种与BMI有关的蛋白质((LEP、IGFBP1、IGFBP2、SERPINE1、WFIKKN2、DKK3)的药物。有三种蛋白的靶向药已完成II期临床试验(LEP、IGFBP1、IGFBP2),包括以瘦素受体为靶点的Metreleptin(美曲普汀),以IGF-1为靶点的Pegvisomant(培维索孟),以及靶向IGFBP1和IGFBP2的Mecasermin(美卡舍明)。

图6.脂肪、肝脏和脑组织基因表达与小鼠肥胖特征的相关性
四、研究结论 蛋白质组的关联分析可能为由于BMI和肥胖增加而发生的分子机制提供了生物学解释。 24种蛋白质与BMI和全基因组多基因评分(GPS)相关。这些蛋白参与脂质代谢和炎症通路,影响肥胖的临床相关通路。 孟德尔随机化研究表明,BMI与LEPR/LEP、IGFBP1和WFIKKN2之间存在双向因果关系,AGER、DPT和CTSA之间存在蛋白-BMI关系。 结合动物模型和组织特异性基因表达数据,我们的发现为进一步阐明这些蛋白在肥胖相关病理中的作用提供了依据,并为肥胖治疗提供了潜在的治疗靶点。
五、科研延伸 蛋白质组学(Proteomics)是研究细胞、组织或生物体蛋白质组成及其变化规律的科学。目前蛋白质组学的研究主要是基于质谱进行检测,根据是否加标记可以分为两大类:非标定量技术,包括Label-free和DIA,标记定量技术,包括TMT和iTRAQ。根据数据采集模式分为数据依赖性的扫描模式(Data-dependent acquisition, DDA)和数据非依赖性的扫描模式(Data-independent acquisition, DIA)。Label-free,TMT/iTRAQ 采用的都是DDA模式。 (1)Label-free定量蛋白组技术 Label-free非标记定量技术是一种不依赖于同位素标记的蛋白质定量技术,通过液质联用对蛋白质酶解肽段进行分析,对相应的蛋白质进行相对定量。利用非标记定量分析多个样品之间同种蛋白质的差异,成本低廉,操作简单,并且不受样品数目的限制,但对质谱仪的状态稳定性与操作要求较高。 (2)TMT/iTRAQ定量蛋白组技术 TMT技术和iTRAQ分别是由Thermo Scientific公司和AB Sciex公司研发的多肽体外标记定量技术。TMT/iTRAQ 标记定量一次上机可以对多达 16(8)个不同样本进行蛋白定量比较,不同标签混合后上机,具有较好的平行性,避免技术误差,提高检测效率,但不能分析特异表达蛋白,不适用不同物种、不同组织等差异较大样本。 (3)DIA定量蛋白组技术 以上两种蛋白组技术Label-free和TMT/iTRAQ 采用的都是DDA(Data Dependent Acquisition)数据依赖性扫描模式,二级质谱只对一级谱图中信号强度排序为top10/20/40的峰进行碎裂并采集对应的子离子信息,丰度相对较低的母离子信息可能会丢失,因此带有一定的随机性。 DIA数据非依赖性扫描模式(Data Independent Acquisition)是近几年来发展的一种新的质谱数据采集方式,被《Nature Methods》杂志评为最值得关注的技术之一,可以依据质荷比(m/z)将质谱整个扫描范围分为若干个窗口,然后对每个窗口中的所有母离子进行碎裂、检测,采集所有母离子的碎片离子信息进行蛋白定性和定量。 与传统DDA模式相比,DIA技术具有全景式扫描、数据利用度高、重复性高、定量准确性高、数据可回溯等优势。因此,DIA技术能够得到更准确更丰富的结果,适合于大样本量、复杂体系的蛋白检测。 说了这么多,那如何选择呢? (1)TMT标记技术16标可以实现一次上机检测16个样本,具有较好的平行性和准确性,因此样本数目少于16个时,可以选择TMT标记技术; (2)样本数目多于16个时,DIA表现更稳定,重现性更好,建议选择DIA技术; (3)TMT标记技术只能检测样本共有蛋白,不适用于差异较大的样本(如不同物种或不同组织),DIA和Label free属于非标记定量,可以检测样本中特有蛋白,如果是差异较大的样本或关注特有蛋白建议选择DIA或Label free技术。