dxy logo
首页丁香园病例库全部版块
搜索
登录

基于Logistic回归的临床预测模型论文的常见套路总结【原创】

发布于 2020-11-24 · 浏览 2.4 万 · IP 江苏江苏
这个帖子发布于 4 年零 159 天前,其中的信息可能已发生改变或有所发展。
icon推荐

临床预测模型是运用统计学方法对相关预测指标的信息进行挖掘、提炼、整合,最终构建一个多变量数学模型。研究者可以根据此模型有目的地评价患者当前的状态以及未来的生死,从而进行有针对性的临床决策。如何评估模型的效能并比较,选择最优模型显得尤为重要。

Logistic回归预测模型思路总结

对于logistic回归预测模型,常见的思路,可以简单的总结为三步

  1. 模型构建
  2. 模型评价
  3. 模型验证


其中,在模型构建中,面对第一个问题就是变量筛选。 最为熟悉的方法是先单后多,即先进行单因素分析,单因素有意义的变量再一起纳入多因素模型中。这样操作最为简单,并且在大多数情况下都是可行的。但有时,比如变量数目过多、变量间存在共线性或者缺失值较多而不愿舍弃掉含有缺失值的样本,先单后多就存在诸多局限性。

如何克服这些问题呢?

我们可以使用一些具有自变量筛选功能的方法。 比如对于共线性问题,可以借助岭回归、lasso、弹性网络模型来解决。 而对于存在缺失值的情况,可以使用随机森林模型。

这里呢先将具有自变量筛选功能的常见方法,罗列在这里,后续再逐一的讲解。

  1. 逐步回归(涉及向后法、向前法、向前向后法)
  2. 正则技术(涉及岭回归、lasso、弹性网络模型)
  3. 树模型
  4. 随机森林模型(树模型的扩展)
  5. 主成分分析(这里是提取多个自变量的主成分,将主成分得分作为最终的自变量)
  6. 梯度提升
  7. ........


模型评价中,可以从不同角度出发,利用多种指标评价模型的拟合情况。

为什么要评价模型呢?

因为在模型构建过程中,所拟合的模型不一定是最优模型或者说不是一个好模型,也就是可能存在欠拟合情况。

常见的评价指标主要有以下几种。

  1. 拟合优度检验(涉及卡方值及P值) ,计算每个个体结局事件的预测概率,并按照预测概率的顺序对数据重新分组(建议分为5—10组),进行Hosme卜Lemeshow拟合优度检验,考察预测结果和实际状况的吻合程度。(P>0.05)
  2. ROC(涉及AUC、sen、spe、accuracy等指标) ,预测模型的鉴别能力即区分能力,主要用受试者工作特征曲线(ROC曲线)来评价。ROC曲线是根据一系列不同的阈值分成两类,以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。ROC曲线将灵敏度与特异度以图示方法结合在一起,可准确反映模型预测值的特异度和灵敏度的关系,ROC曲线越接近左上角,曲线下面积越大,表明其预测价值越大。同时其可用于不同指标间的比较。一般认为曲线下面积大于0.8时诊断价值较大,具体预测价值需要结合临床实际。
  3. calibration(涉及C-index的计算),预测模型的准确性评价一般使用校准曲线。校准曲线就是以预测发生率为横坐标,以实际发生率为纵坐标的散点图。在散点图上进行直线拟合,如果直线为过原点的斜率45度直线,模型准确性非常好;离过原点的斜率45度直线越远,预测准确率越差。在Logistic回归分析中,校准图曲线实际上是把Hosmer-Lemeshow拟合优度检验的结果可视化结果。
  4. DCA决策曲线,大多数预测模型不能达到100%准确,无论选取哪个值作为阈值,都会遇到假阳性和假阴性的问题,有时候避免假阳性会受益更大,有时候则更希望可以避免假阴性。以上两种情况都无法避免,若要找到一个净受益最大的办法,这就是预测模型的实用性问题,一般采用决策曲线分析法(DCA)进行评价。DCA以阈概率为横坐标,以利减去弊之后的净获益率为纵坐标作图,曲线整体越靠近右上角,表明预测模型的实用性越好。在实际应用时还有两条参考线,它们代表两种极端情况。横的那条表示所有样本都是阴性,所有人都未接受干预,净获益则为0。斜的那条表示所有样本都是阳性,所有人都接受了干预,净获益是个斜率为负值的反斜线。DCA如果靠近这两条线,临床实用性较差。
  5. 或者直接计算终极指标MSE的计算


通常来讲,完成模型评价已经可以称之为“完整”的研究。但是很多人会忽略掉过拟合这种情况,也就是结果的外推性究竟如何。什么是过拟合,简单的讲过拟合会造成这样一种情况,就是所构建的模型对于本次数据,显示出很好的效果,但是将这个模型用于预测另外一份全新的数据时,可能会呈现出效果不理想的状态。所以我们需要进行模型验证。模型验证的方法也是非常多,这里罗列常用的几种。

  1. cross validation(涉及简单交叉、K-fold corss validation、N-fold cross validation),其中简单交叉最为常用,但严格意义上来讲简单交叉并不是“交叉”。
  2. bootstrap
  3. cross validation+bootstap


最后,再来一次总结,需要说明的是,模型构建、模型评价、模型验证这个过程可能需要多次操作,才可以得到最终的结果。比如在模型评价阶段,发现模型存在欠拟合状况,或者在模型验证阶段,发现模型存在过拟合状况,这时候都需要返回模型构建阶段重新拟合模型。


相关原创视频见下,持续更新,

R语言Logistic回归临床预测模型【第一节 概述】

R语言Logistic回归临床预测模型【第二节-变量筛选1-先单后多】

R语言Logistic回归临床预测模型【第三节-变量筛选2-lasso】

R语言Logistic回归临床预测模型【第四节-变量筛选3-逐步回归】

R语言Logistic回归临床预测模型【第五节-变量筛选4-随机森林】

R语言Logistic回归临床预测模型【第六节 模型构建1-nomogram】

R语言Logistic回归临床预测模型【第七节 calibration校准曲线】

R语言Logistic回归临床预测模型【第八节 C指数计算】

R语言Logistic回归临床预测模型【第九节 ROC及其AUC】

R语言Logistic回归临床预测模型【第十节 拟合优度检验】

R语言Logistic回归临床预测模型【第十一节 决策曲线DCA】

R语言Logistic回归临床预测模型【第十二节 NRI与IDI】

最后编辑于 2021-05-28 · 浏览 2.4 万

34 1079 102

全部讨论0

默认最新
avatar
34
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部