Cox比例风险模型全集(一)

Cox比例风险模型,又称Cox回归模型,是临床数据分析中较为常用的一种生存分析方法,也是临床数据分析人员应掌握的基本方法。本文就有关Cox回归模型的一系列分析与可视化方法做了一个汇总,主要内容包括:数据整理、(批量)单因素Cox回归、多因素Cox回归分析(含逐步回归)、PH假定检验和含时间依存变量的Cox回归模型、限制性立方样条在Cox回归模型中的应用、LASSO回归在Cox回归模型中的应用、Cox回归模型的评价(C-index、时间依存ROC曲线、校正曲线、决策曲线分析)、Cox回归模型的可视化(森林图、列线图)。另外,考虑到临床预测模型的热度,我们将通过临床预测模型的建立与验证这一过程对上述分析和可视化方法进行一一展现。
友情提示:本帖信息量较大,请做好分步阅览的准备!
一、数据准备
数据的整理是数据分析的第一步,一般包括异常的查看与处理、缺失值的查看与处理、定量变量的分组与加标签、定义分类变量、变量或子集的选择、变量的正态性转换等等。本次案例数据为SEER数据库数据,数据准备部分将涉及变量和子集筛选、定义分类变量(因子变量)与加标签、随机划分数据集(7:3)
1.导入原始数据
这里使用subset函数筛选了诊断年为2000年以后的患者,使用中括号和和向量c删除了部分不参与分析的变量,c前面的减号是删除,若无减号则为保留括号内的变量(数字1、2、6、9和12是变量对应的列数)

2.研究对象筛选
这里根据组织分级是否已知对研究对象进一步筛选,去掉了分级未知的研究对象。!=连用代表不等于。

3.定义因子变量,并加标签
对于用数字编码过的分类变量,导入后默认为数值变量,需要转换为因子变量(分类变量)。在本案例数据中,组织学类型(Hist_type)和组织学分级(Hist_stage)是分类变量,这里通过factor函数进行因子转换和加标签。

如果是有许多的分类变量,可以通过lapply函数进行批量转换,这个在以后的主贴中再说。
4.数据集随机划分
按照临床预测模型的套路,对数据集按照7:3的比例进行随机划分,70%的数据为训练集,30%的数据为验证集。这里先设置了种子数,保证再次执行此代码时,数据集划分是一致的。

今天太晚了,就先写到这里,接下来的一篇介绍批量单因素Cox回归、多因素Cox回归(Enter法)、逐步Cox回归分析和森林图。
最后编辑于 2022-10-09 · 浏览 7294