你的孟德尔随机化研究还找不到选题?实际应用案例给你灵感
在孟德尔随机化(MR)分析中,为了得到有效的结果,必须满足三个核心假设,如图1所示。具体而言,作为危险因素工具变量的遗传变异或多个遗传变异必须满足:
(1)与所研究的危险因素可靠关联(相关性假设);
(2)与任何已知或未知的混杂因素不相关(独立性假设);
(3)仅通过危险因素而非任何其他直接的因果途径影响结局(排除限制性假设)。

图1、MR研究的三个核心假设
具体而言:
▌关联性假设:用作工具变量的遗传变异与暴露因素之间是强相关的。这意味着遗传变异可以有效地预测暴露因素的水平,而不是与其他无关的遗传变异混杂。
▌独立性假设:用作工具变量的遗传变异与混杂因素之间是独立的。这意味着遗传变异只是通过暴露因素影响结局,而不是通过其他可能影响结局的因素,如环境、行为、社会等。
▌排他性假设:用作工具变量的遗传变异与结局之间没有独立的因果途径。这意味着遗传变异不会直接影响结局,也不会通过其他与暴露因素无关的途径影响结局,如生物标志物、代谢途径、生理机制等。
下面一起探讨孟德尔随机化(MR)研究的实际应用案例。
📝例1
➭假设你想知道吸烟是否会增加肺癌的风险,但是你不能直接进行随机对照试验,因为这样不道德也不合法。你只能通过观察性研究来收集吸烟者和非吸烟者的数据,然后比较他们的肺癌发生率。
➭但是这样可能会受到很多混杂因素的影响,比如年龄、性别、饮食、遗传等。这些因素可能会导致你得到错误的结论,比如你可能会认为吸烟不会增加肺癌风险,或者吸烟会减少肺癌风险。
🔑这时候,你可以用孟德尔随机化来帮助你。你可以找到一个与吸烟有强相关性的遗传变异,比如CYP2A6基因的某个位点。这个位点会影响人体对尼古丁的代谢速度,从而影响人们对吸烟的喜好和依赖程度。■如果你假设这个位点只是通过吸烟影响肺癌风险,而不是通过其他途径,那么你就可以把它作为一个工具变量,来估计吸烟与肺癌之间的因果关系。你可以收集一些人群的基因型数据和肺癌发生率数据,然后根据他们是否携带这个位点来分组。■如果你发现携带这个位点的人群有更高的肺癌风险,那么你就可以推断吸烟会增加肺癌风险。■如果你发现没有差异或者反向效应,那么你就可以推断吸烟不会增加或者会减少肺癌风险。
📝例2
➭假设我们想知道饮酒是否真的会导致心血管疾病。简单地观察喝酒的人和不喝酒的人的心血管健康状况可能无法给出答案,因为可能有许多混杂因子。例如,那些喝酒的人可能也更容易吸烟、饮食不健康或锻炼不足,这些都可能影响心血管健康。
🔑这时,孟德尔随机化可以派上用场:
选择工具变量:我们知道有些基因变异使人更容易饮酒。这些基因可以作为我们的工具变量,因为它们直接影响我们的暴露一饮酒。关联性假设:确实,那些有这些基因变异的人比其他人更容易饮酒。独立性假设:这些基因在我们出生时就被随机分配,所以它们与其他可能影响心血管健康的行为或环境因素(如饮食或锻炼) 无关。排他性假设:我们假设这些基因只通过影响饮酒来影响心血管健康,而不是通过其他途径通过这种方法,我们可以更准确地估计饮酒对心血管健康的真正影响,排除其他混杂因子的干扰。
📝论文案例

◥Coffee Consumption and Cardiovascular Diseases: A Mendelian Randomization Study
⏩这篇论文的目的是探讨咖啡消费量与心血管疾病之间的因果关系。作者利用了两个大型人群队列研究UK Biobank和CHARGE Consortium)中的基因数据和临床数据,进行了双样本孟德尔随机化分析。双样本孟德尔随机化分析是指使用两个不同的样本来分别提供工具变量(遗传变异)与暴露因素(咖啡消费量)之间的关系,以及暴露因素与结局(心血管疾病)之间的关系。这样可以避免使用同一样本带来的潜在偏倚。
✅作者首先从UK Biobank中筛选出了与咖啡消费量有显著相关性的6个遗传变异作为工具变量,然后从CHARGE consortium中筛选出了与心血管疾病有显著相关性的19种表型作为结局。作者使用了多种孟德尔随机化方法来估计咖啡消费量与心血管疾病之间的因果效应,包括逆方差加权法(IVW)、加权中位数法(WM)、加权模式法(WMo)、简单模式法(SMO)、MR-Egger回归法(ME)和合模型法(MM)。作者还进行了敏感性分析和异质性检验,以评估结果的稳健性和可信度。
✅作者发现,在所有19种心血管表型中,只有两种表型显示出了咖啡消费量与其之间有显著的因果效应。一种是冠心病(coronary heart disease)结果显示每增加一杯咖啡(约240豪升)的消费量,冠心病的风除就会降低6%到8%;另一种是心房颤动(atrial fibrillation),结果显示每增加一杯咖啡的消费量,心房额动的风险就会增加4%到7%。这些结果在不同的无德尔随机化方法中都是一致的,并且通过了敏感性分析和异质性检验。作者还发现,在不同的性别、年龄和遗传背景下,咖啡消费量与心血管疾病之间的因果效应没有显著差异。
🔑这篇论文的创新之处在于,它是第一篇使用双样太孟德尔随机化分析来探过咖啡消费量与心血管疾病之间的因果关系的研密。它利用7大规模的基因数据和临床数据,提供了更强的证据支持咖啡消费量对冠心病有保护作用,对心房额动有不利作用。这些发现对于咖啡消费者和心血管疾病患者的健康指导有重要意义。这篇论文也展示了孟德尔随机化分析在探索营养因素与疾病之间的因果关系方面的优势和潜力。
📌孟德尔随机化研究中常用术语词汇表
•因果(Causality)是指一种因果关系:改变暴露水平将改变结局(或改变结局的风险)。相反,“关联”并不一定意味着存在因果关系,而仅仅表明暴露和结局是相关的。
•混杂(Confounding)是指当关注的危险因素与另一个对结局产生影响的因素相关联时,而发生的对估计危险因素-结局关联性的扭曲。例如,饮酒与冠心病风险之间的关联可能受到以下混杂影响:饮酒的人也更有可能吸烟,而吸烟对冠心病风险也具有因果影响。
•全基因组关联研究(GWAS):一种不设假设的研究设计,来检验数千或数百万种遗传变异与表型的关联性。GWAS的主要目的是识别与表型相关的变异,这些变异可用于识别与表型病因相关的基因,或为表型开发具有预测作用的多基因评分模型。
•连锁不平衡(LD)是指遗传变异的非独立分离。同一染色体上邻近的基因变异可以一起遗传,如果等位基因频率相似,就会导致它们之间产生相关性。
•孟德尔随机化(MR):利用与暴露相关的遗传变异来了解暴露对健康结局的因果影响。
•孟德尔随机化全表型关联研究(MR-PheWAS):一项不设假设的研究设计,在广泛的结局范围内对危险因素进行孟德尔随机化。该方法的一个局限性是多重假设检验,这为在识别真正的关联和生物学关联方面带来了一定的挑战。
•表型(Phenotype)是指个体的可观察特征,如眼睛颜色、血型和体重。个体的表型可能由基因型单独决定(如血型),也可能由基因型和环境因素共同决定(如体重)。
•多效性(Pleiotropy)是指基因变异与多种表型的关联。水平多效性是指一个基因变异在不同的生物学通路上与一种以上的表型关联。这种多效性是值得关注的,因为它违反了排除限制假设,并可能扭曲结果。垂直多效性是指一个遗传变异与同一生物学通路上的多种表型关联,这并不能否定研究结果。
•反向因果关系(Reverse causation):结局(疾病)影响暴露水平(危险因素)的现象。这种偏倚在MR研究中被最小化,因为遗传变异是不可改变的,不受疾病状态的影响。
•单核苷酸多态性(SNP):DNA中的一个碱基发生了变化产生的一种常见的遗传变异,例如在基因序列的特定位置上,一个C取代了一个T。
📌统计方法
•反方差加权法(Inverse-variance weighted method):通常是MR研究中涉及多个遗传变异最有效(最大的统计把握度)也是最主要的分析方法,要求所有的遗传变异都是有效的工具变量。
•加权中位数(Weighted median):MR研究中常见的补充分析方法,通过取变异特异性估计的中位数来加权。对异常值稳健,但对遗传变异的增加或去除较为敏感。
•多变量MR(Multivariable MR):允许将遗传变异与多种危险因素的关联性纳入分析的一种统计方法。该方法可用于调整已知的混杂因素,或从感兴趣的危险因素到结局的因果路径中,探索因素的中介效应。
•MR-Egger:MR研究中常见的补充分析方法,可以对多效性进行检验和调整,但对离群值敏感,与逆方差加权法相比效率较低。
•MR-PRESSO:可以识别和去除异常值,但有几个无效的工具变量,导致假阳性率很高。
•非线性MR(Non-linear MR):用于评估暴露与结局之间因果关系形态的一种统计方法,特别是暴露对结局的因果效应是否在不同的暴露水平上有所不同。
持续分享,敬请关注~