dxy logo
首页丁香园病例库全部版块
搜索
登录

多元回归,还是多变量回归?

发布于 2021-05-27 · 浏览 3662 · IP 江苏江苏
这个帖子发布于 3 年零 340 天前,其中的信息可能已发生改变或有所发展。

在一些医学文献中,关于统计学术语“multivariate (多元)”和“multivariable (多变量/多因素)”常有使用错误和混乱之处,很久之前看到了Bertha Hidalgo和Melody Goodman的《Multivariate or Multivariable Regression?》一文,近日心血来潮翻译了一下,帮助大家梳理这两个术语的用法,翻译不当之处还请各位老师和站友帮忙指出。

译者:墨点星沟,医学硕士,流行病与卫生统计学 

@ln_zi ,博士在读,流行病与卫生统计学

摘要

在公共卫生相关的文献中,“multivariate (多元)”和“multivariable (多变量)”这两个术语经常互换使用。然而,这两个术语实际上代表着两种截然不同的分析方法类型。我们定义了这两种类型的分析方法,并评估了一个年度内发表在《美国公共卫生杂志》上的文章中统计术语“multivariate”的使用率。我们的目的是做出明确的区分,并识别使这些类型的分析如此不同的细微差别。

正文

大多数回归模型是根据结局变量的类型来建模的:线性回归的结局变量是连续性的,logistic回归的结局变量是二分类的,生存分析的结局变量则是时间-事件。从统计学上讲,多元 (multivariate) 分析是指具有2个及以上因变量或结局变量的统计模型1,多变量 (multivariable)分析是指具有多个自变量和一个因变量的统计模型2

对于多变量模型,其模型方程的右侧有多个自变量。这类统计模型可以用来尝试评估一些变量之间的关系;或者在调整了潜在混杂因素后,评估一个变量的独立关系/影响。

一个简单线性回归模型有一个连续性的因变量和一个预测因子,而一个多重或多变量线性回归模型有一个连续的因变量和多个预测因子(连续的或分类的)。

一个简单的线性回归模型可以写成如下的形式:

(1) y = α + β1x1 + ε 相应地,一个多变量或多重线性回归模型可以写成如下的形式: (2) y = α + β1x1 + β2x2 + … + βkxk + ε

其中, y是连续性因变量,x是单变量回归模型中的一个预测因子,x1、x2、…xk是多变量模型中的预测因子。

与线性模型一样,logistic和比例风险回归模型可以是单变量的或多变量的。每个模型的结构中都有一个因变量以及一个或多个独立变量/预测变量。

相比而言,多元模型通常是指使用来自纵向研究数据建立的模型,其因变量是在多个时间点对同一个体进行测量所得(重复测量);或者,是使用嵌套/聚类数据所建立的模型,其每个类/层中有多个个体。多元线性回归模型可以写成如下的形式:

(3) Yn×p = Xn×(k+1) β(k+1)×p + ε

该模型评估了多重因变量(即Ys)—多个结局的测量—和一组预测变量(即Xs)之间的关系。

我们采取了一个系统的方法来评估统计术语“multivariate (多元)”的使用率,即我们在PubMed上使用关键词“multivariate”来检索2010年12月至2011年11月在《美国公共卫生杂志》(American Journal of Public Health)上发表的文章。我们确定了30篇文章,其作者均在文中讲到使用了“多元”统计方法。我们单独地对每一篇文章进行回顾,以评估被定义为“多元分析”的分析方法的类型。

在30篇文章中,5篇(17%)使用了多元模型(如我们在这里定义的),其中有4个来自纵向数据,1个来自嵌套数据;其余25篇(83%)涉及多变量分析。Logistic (21/30, 70%)是使用最多的分析类型,其次是线性回归(3/30, 10%)。有趣的是,在30篇文章中有2篇(7%)存在多元和多变量互换使用的情况。这进一步说明了在使用这两个术语时用词规范和统一的必要性。

虽然有些人可能会争辩,多元和多变量的互换使用只是语义上的,但我们相信区分这两个术语对公共卫生领域来说是重要的。一般而言,公共卫生研究中使用的模型应描述为单变量模型或多变量模型,以表明预测因子的数量;描述为线性模型、logistic模型、多元模型或比例模型,以表明因变量的类型(如连续性、二分类、重复测量、事件-时间)。

我们的综述显示,有必要更准确地应用和报告多变量分析方法。而且,这一问题并非公共卫生领域的研究所特有,其他研究领域(如医学、心理学、政治学)也有同样的问题3。因此,我们希望将来在公共卫生领域的文献中看到一个更加清晰的区别,即区别使用“multivariate”与“multivariable”来描述其所使用的统计分析方法。这是一个重要的区别,不仅是为了避免读者之间的混淆,也是为了更准确地告知下一代正在将他们的工作建立在已发表文献上的公共卫生研究人员。

 

作者:Bertha Hidalgo, 博士, 公共卫生硕士

Melody Goodman, 博士, 理学硕士

 

参考文献

1. Van Belle G. Biostatistics: A Methodology for the Health Sciences. Hoboken, NJ: Wiley-Interscience;2004.

2. Katz MH. Multivariable analysis: a primer for readers of medical research. Ann Intern Med. 2003;138(8):644–650.

3. Freedland KE, Reese RL, Steinmeyer BC. Multivariable models in biobehavioral research. Psychosom Med. 2009;71(2):205–216.

最后编辑于 2022-10-09 · 浏览 3662

9 39 23

全部讨论0

默认最新
avatar
9
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部