Logistic回归预测模型论文分析流程
Logistic回归是医学类论文中最常见的分析方法,一般临床上探究某种结局的影响因素时会用到Logistic回归,但大部分的分析仅限于对影响因素的探究,而没有建立Logistic回归预测模型进行深入分析,导致文章缺少两点,不够丰满。我在这里根据自己过往的论文分析经验及相关的参考文献,为大家展示一篇利用Logistic回归探究影响因素并建立回归模型的完整流程,为大家的分析提供技术支持。
1 案例数据
1.1 研究目的
探究糖尿病的危险因素并建立预测模型
1.2 研究样本
共纳入1000名调查对象,其中糖尿病患者397人,非糖尿病者603人。收集了调查对象的性别、年龄、教育程度、收入、婚姻状况、吸烟、饮酒情况、运动情况、睡眠情况、高血压史。
1.3 研究方法
采用R语言进行统计分析。采用卡方检验和两独立样本t检验进行糖尿病患者组间差异分析;采用Logistic回归探究糖尿病的影响因素;建立训练集和测试集,用训练集数据建立Logistic回归预测模型;绘制列线图可视化回归模型;绘制校准曲线评价模型;分别绘制训练集和测试集ROC曲线,进行模型评价。
2 数据分析流程
2.1 调查对象的组间差异分析
采用两独立样本t检验和卡方检验比较糖尿病组和非糖尿病组一般资料的差异,结果显示,正常组和糖尿病组调查对象的性别、文化程度、收入、婚姻状况、吸烟情况、锻炼情况、睡眠状况和高血压史均有显著差异(均P<0.05),而年龄和饮酒情况无显著差异(均P>0.05),见表1。
表1 调查对象一般资料的组间差异分析

2.2 多因素Logistic回归分析
以糖尿病患病情况作为因变量(以正常组作为参照),以单因素分析有差异的变量作为自变量,建二分类多元Logistic回归模型,结果显示,性别、收入、吸烟情况、锻炼情况和高血压史是糖尿病的独立影响因素(均P<0.001),而婚姻状况对糖尿病的影响无统计学意义(P>0.05),见表2。
表2 糖尿病影响因素的二分类多元Logistic回归

2.3 建立预测模型
2.3.1 生成训练集和测试集
利用随机数字表生成器按照7:3的比例将样本数据分成训练集和测试接。
2.3.2 绘制列线图
将2.2中多因素分析有意义的变量纳入Logistic回归预测模型,绘制列线图,对预测模型进行可视化展示,根据列线图见图1。

图1 Logistic回归列线图
2.4 模型评价
2.4.1 绘制校准曲线
采用校准曲线对建立的预测模型的一致性进行评价,Apparent和Bias-corrected两条线越重合说明模型预测能力越好,见图2。

图2 校准曲线
2.4.2 ROC曲线
分别用训练集和测试集数据绘制ROC曲线,评价模型的预测价值,AUC曲线下面积越大,模型的预测价值越高,图中训练集ROC曲线AUC下面积为0.626,提示模型有一定的预测价值,而测试集ROC曲线AUC下面积为0.559,说面模型的内部验证结果并不是很好,模型的预测价值一般,稳定性不高,见图3。

图3(a)训练集ROC曲线

图3(b)测试集ROC曲线
2.4.3 决策曲线
决策曲线是近年比较流行的模型评价方法,与ROC曲线的作用一致,图中diabete的线条下降越缓慢,且一致高于0,说明模型预测价值越好,图中可以看出,训练集的模型具有一定的预测价值,而测试集的预测效果明显不高,见图4。

图4(a) 训练集决策曲线

图4(b)测试集决策曲线
2.5 总结
以上是采用Logistic回归进行影响因素分析并建立预测模型的完整流程,一般大家的数据都是单中心的,按照以上流程进行内部验证即可。如果数据来自多中心,可以以本中心数据,或者根据地区划分以部分地区数据作为建模组,以其他地区数据作为外部验证组进行外部验证,外部验证的效力要高于内部验证。另外,文中的单因素分析完全可以用单因素Logistic回归代替,会比较高端,但是会少一个表,对于需要凑字数的你来说,利用t检验和卡方检验进行单因素分析并制表无疑是一个更好的选择~
最后编辑于 2023-01-23 · 浏览 3706