单向有序资料分析,很多医学生用错了方法!

陈塘关人民医院肿瘤科,住院医师小敖最近发现一个现象:某肿瘤临床分期不同,手术后不同种类并发症的发生率好像也有差异,小敖怀着激动的心情决定一探究竟,明年的SCI可能就靠它了,后年的住院医升主治可能也得靠它了。
经过一段时间观察和收集,小敖得到了以下数据:

当小敖把收集到的数据递到导师申主任面前时,申主任眼睛一亮,顿时激动起来,指着疾病分期说:“这题我又会了,你看这是单项有序分类有序资料,应该用秩和检验”。
说着对着统计软件一顿捯饬,最终得出了下面的结果。

申主任指着结果说:“小敖你看,P<0.001,说明我们有理由拒绝原假设,可以认为不同并发症组的患者疾病分期等级有统计学差异。从秩均值来看,心血管并发症组患者疾病分期等级最高,其次是消化系统和呼吸系统并发症组,无并发症组的疾病分期等级最低,Got it?”
小敖用手挠了挠自己的后脑勺,一脸懵圈的说:“好像Got了,又好像没Got,我总觉得这个结果怪怪的,不是我想要的结果,SCI估计又没戏了,唉!”
申教授点点头说:“我好像也觉得听起来怪怪的,但是过程都没有问题啊!”
正在二人一筹莫展之际,科研秘书小吒唱着rap走了过来,一边唱还一边喊着:“我命由我不由天,小爷就要搞科研”。
小敖一把拉住小吒,把刚才师徒二人的困惑说了出来,小吒一听隔壁课题组出现了困难请教自己,立马来了精神,感觉这次要给自己的导师太乙教授争光了,清了清嗓门,准备好好表现一下。
小吒:“申教授、小敖你看,在咱们上篇文章中分组变量是无序的,指标变量是有序的。但现在我们的恰恰相反,分组变量是有序,而指标变量无序的。虽然都是单向有序的分类资料,但二者还是有区别的”。
“当指标变量有序而分组变量无序时,我们可以用秩和检验来比较指标变量在不同组别间的分布是否有统计学差异,同时还可以直接比较各组之间的指标变量等级强度,我们只要把指标变量的等级关系转化为秩,直接比较组间秩均值的大小就行了”。
“而当分组变量有序,指标变量无序时,如果我们再用秩和检验,就相当于把分组变量的等级关系转化为秩,那么我们分析的重点就不再是指标变量了,而是分组变量了。之所以你们觉得结果有点奇怪,那是因为这不是你们分析的目的。你们真正的目的是比较不同疾病分期的患者术后并发症的差异,而不是疾病分期的强度关系”。
"太乙教授常说我们关注的重点应该是指标变量,而不是分组变量,更何况很多时候分组变量还是我们人为设定的”。
申教授点点头说“看来师兄还是高我一头啊,那么这数据我该如何分析呢?”
小吒摆摆手说:“师叔谦虚了,我师父最佩服您的分水刺手术法,还夸您的这一术式手法凌厉,奇妙多变,出血少,预后好,10年生存率高,值得全国推广,明年的国家科技进步奖希望很大啊!后面评院士也不是不可能。”
申教授:“唉,太乙师兄懂我啊,只可惜那帮老头子嫌弃我第一学历不是名校,还说我没有海外经历,不是杰青,也没有发过CNS正刊,也不是国家级学会、协会的主委或副主委,人心中的成见就像一座大山,任你怎么努力,也休想搬动”。说着不禁黯然神伤了起来”。
小吒清了清嗓门继续说道:“对于这道题,我觉得最主要的还是要看您的分析目的是什么?根据目的我们可以采用不同的方法”。
“如果您的目的是:别扯其他的,我就只想看不同疾病分期的患者,他们术后并发症的分布有没有差异。那么好,直接上常规的卡方检验(双向无序),有没有问题?一点问题都冇得,只是说没有利用分组变量的等级信息而已。但没有任何人敢说我们分析错了,谁要是不服就让他打我撒,打我撒!”。
“但如果您觉得这个等级顺序我必须考虑进去,除了上面的目的之外,还想看看随着疾病分期等级的不断提高,术后并发症有没有呈现某种规律。那么有没有办法?肯定有,我们可以用Cochran-Armitage趋势检验来进行分析”。
“Cochran-Armitage趋势检验又称趋势卡方检验,主要用在R×2列联表资料,常用于检验有序分类分组变量和二分类指标变量之间是否存在某种关联或线性趋势”。
在我们目前的数据中,Cochran-Armitage趋势检验可以针对特定并发症类型(如心血管并发症、呼吸系统并发症等),检验其发生率是否随临床分期等级的提高呈现某种单调趋势(递增或递减)”。
“好吧,让我们再仔细观察一下数据表,在表中我们可以肉眼看出随着疾病分期等级的提高,呼吸系统并发症和消化系统并发症好像并没有而呈现什么特殊趋势;
但是,随着疾病分期等级的提高,心血管系统的并发症好像有不断增加的趋势(看百分比),哇,这真是一个伟大的新发现,可是这种趋势成立吗,有没有统计学意义呢?
我们可以把疾病分期等级和心血管并发症发生率单独拎出来检验一下(探索性分析,只管干,怕个毛线),那么这种时候就应该用Cochran-Armitage趋势检验了”。
小吒咽了口唾沫接着说(心里想:不说西瓜了,连口水都没啊):“那么我们刚才说的Cochran-Armitage趋势检验结果呢?
其实SPSS里面并没有提供这种方法的操作窗口,但我们一般都是用Linear-by-linear Association结果来代替,因为这个结果非常接近Cochran-Armitage趋势检验结果”。
说着在统计软件上也是一顿捣腾。得出了下面的结果:

小傲用手指着结果接着说:“二位请看,Cochran-Armitage趋势检验的软件操作方法和常规卡方检验(双向无序)完全一致,只不过我们要看的统计量和P值不同,蓝框是常规卡方检验的结果,
红框中线性和线性组合(Linear-by-linear Association)就是我们本次Cochran-Armitage趋势检验结果,从结果可以看出P<0.001,即可以认为术后心血管疾病的发生率与疾病分期之间存在线性关系,即疾病分期分期越高,心血管系统病发症发生率越高(看绿框数据)”。
小敖接着说:“那么到这里为止,数据分析是不是可以结束了呢?其实,我们还可以继续将表格进行拆分,再进行组间的两两比较,还可以得到相对危险度(Relative Risk,RR)这一效应量”。
说着又是一番倒腾,得到下面结果:

小敖指着红框解释道:“P<0.001(这里的检验水准需要校正,先不管,后期再聊),我们有理由拒绝原假设,可以认为Ⅳ期患者术后心血管并发症发生率高于Ⅰ期患者,二者有统计学差异。
同时我们还发现Ⅳ期患者术后发生心血管系统并发症的概率是Ⅰ期患者的2.9倍(红框内容),当然其他各期之间也可以相互比较,是不是很哇塞,SCI是不是稳了”。
小敖兴奋的接着说道:“我们后面可以针对这一结果进行更深入的临床或基础研究,其原因是什么?其底层逻辑是什么?最好还能跟什么分子啊、基因啊、蛋白啊、通路啊啥的联系起来,总之越邪乎越好,我们可以针对这个问题去发论文、去申请课题,说不定还能撸个国自然”。
申教授听完之后向小吒医生竖起了大拇指并点头赞许,然后补充道:“数据分析方法真是太有用了,咱们医务工作者有了科研思维,掌握了数据分析方法真是如虎添翼。
其实对于发论文和申请课题我倒觉得这并不是最重要的,重要的是我们可以在临床上发现新的问题,并努力去探索它、解决它,这样才能不断提高临床水平,为患者提供更好的治疗,这才是临床研究的价值所在”。
听完之后:小吒和小敖都对申教授钦佩至极,一致感叹这才是临床大家的格局。
Tips:
1、常规卡方检验(不考虑变量等级)将临床分期视为无序类别,无法检测比例变化的单调趋势,可能掩盖真实关联。而Cochran-Armitage趋势检验能够为临床决策提供支持,比如在上面的例子中我们可以后续尝试在Ⅳ期患者中优先监测心血管并发症风险。
2、卡方检验的本质就是检验数据的分布,从这个角度来说对于结果变量有序,指标变量无序的分类资料,我们用常规卡方、用秩和检验、用Cochran-Armitage趋势检验,都没有问题,只要能从专业角度能解释的通就可以。重要的是看能不能实现我们分析的目的以及有没有充分利用数据的信息。
3、在做数据分析之前,我们一定要明确我们的分析目的是什么,我们要根据自己的分析目的去选择合适的数据分析方法,可以多角度尝试。
4、数据分析只是方法,专业理论才是核心,对于专业理论都无法解释的数据分析结果我们一定要慎重,很有可能是垃圾(当然,也有可能是人类的重大发现)。
5、临床研究最难的永远不是数据分析方法,而是如何选题和获得高质量数据,因此当我们有了数据之后我们一定要多角度考虑分析方法,一定要把数据抽筋扒皮、吃干抹净。
最后编辑于 6 天前 · 浏览 267