R语言学习笔记——Logistic回归(3):亚组分析时一个容易忽视的问题

首先,从实例中看一下问题,文献中的图1显示(见下图),根据吸烟状态,可以将研究人群分为不吸烟、过往吸烟和吸烟三个亚组。在分析尿中PAHs scores(一组污染组浓度得分)与类风湿关节炎(RA)的关系时,得到在不吸烟和过往吸烟亚组中,OR值无显著性差异,而吸烟亚组,OR比值高达15.46(3.11,76.75)。据此文章得出结论,PAH暴露和吸烟状态可能是RA发生相关的潜在因素。

图1 文献中的亚组分析结果
之所以觉得这个结论有问题,是因为其分析结果与我的分析有出入。那这种差异是怎么造成的呢?仔细分析发现,作者为了分析PAH scores与RA的关系,将PAH各组分浓度用四分位数区间划分为四组,纳入Logistic回归分析。但作者忽略了针对总人群进行的四分位数区间划分后,直接应用在亚组人群中时,就会引起分组样本数量的不平衡。尤其是PAH这类物质在吸烟人群中的浓度远远高于非吸烟人群,这时在吸烟人群亚组中使用总人群的区间划分,就会造成第四分位区间例数过多,而第一分位区间例数过少的现象,造成统计学结果的不准确,从吸烟组OR值的95%区间(3.11-76.75)也可以看出来。
经过按亚组重新划分四分位数区间,可见吸烟状态亚组中PAH对于RA发生的OR值大为降低,显著性消失,见图2。

图2经过亚组划分区间的亚组分析结果
回头再看书,在《医学统计学》(第4版)第十六章Logistic回归注意事项中说道:“Logistic回归的所有统计推断都建立在大样本基础上,因此要求有足够的样本含量。”“如果分层很多,会使一些层内观察个数过少,此时计算出的统计量可能偏离χ2分布,下结论时应慎重。”
读书时,这些描述并没有引起足够的重视,在实际分析中如果不注意,会造成结果的假阳性或假阴性,近处会给这个研究带来不准确的结论,远处会造成研究方向的错误。因此,应该合理进行亚组分析,注意样本量的分布。
最后编辑于 2022-10-09 · 浏览 3846