总人数为300人,阳性结局仅不足10人,这样的临床预测模型文章也能发?
查看病例

看到《中国组织工程研究》期刊上有一篇预测模型的文章,
总共纳入研究的人数为300人,不算少
但结局阳性(术后30天内发生并发症)居然仅不足10人
而离谱的是,作者居然构建了多因素的预测模型。。。。
根本不符合10EPV的要求,出现过拟合的嫌疑极大
网友询问什么是10EPV原则,在此摘录知名医学统计大V松哥的一段文字进行说明:
这就涉及一个原则叫做“10EPV”,也就是不管你样本量多大,真正有效样本量是发生阳性结局事件的个案数,本例270人只有42人发生死亡,因此按照“10EPV”原则,最多纳入4个自变量哦!
作者最后筛选了3个变量构建多因素逻辑回归模型,即使放宽到5EPV也得有15人结局为阳性啊

下表是单因素逻辑分析的结果,脑血管疾病风险比为31,置信区间上限直奔“250”。。。这样的数据已经没有统计学价值了。
之前请教过一位流行病医生,也是流行病的博士,他认为回归模型的风险比(OR、HR)超过3就很难解释
我一般跟找我咨询统计的网友说超过10,就要考虑是不是数据本身有问题
我记得看到过一位网友投SCI,由于结局阴性组和阳性组两组人数过大,被审稿人质疑差异分析是否具有价值,在网上求助
就连最基本的差异分析,当两组样本差距过大时都会被审稿人质疑,而这篇文章进行了更为高级的回归模型构建。
也不知道这本中华旗下期刊的编辑和审稿人,怎么给作者过的呀

从上表中也能看出,作者没有对逻辑回归分析进行样本量估算,并在论文中阐述其计算样本量的过程,是极度不合理的
之前帮一个麻醉的网友调整她投本校学刊的文章,编辑在审稿意见中也要求作者尽量对样本量估算的过程进行说明
我推荐使用R语言的WebPower包对逻辑回归的样本量进行估算
如果是t检验或者卡方检验,可以使用pwr包进行样本估算
不会R语言的赶紧学起来,不管是什么研究方向,编程统计越早学习对自己越有利
ROC曲线没有做多因素模型(纳入全部因素的逻辑模型),只做了单因素,也是错误的
此外,作者还应当提供ROC的AUC的95%CI。

而且此项研究中,结局阳性人数占比过少,ROC已经不足以说明问题,作者还需要提供PR曲线及其AUC与95%CI。
最后,作者样本数量300人,在考虑到阳性样本偏少,不能拆分为训练集和验证集的情况下
也应使用bootstrap重复抽样1000次进行内部验证。
完全没有其他方式的验证是不合理的。
作为发表的临床预测模型文章,不管是核心或中华旗下、SCI,重复抽样、k折交叉验证、训练集验证集验证方法,应至少选择其中1种,以判断模型是否存在过拟合等问题。
这篇文章一作在SCI和中文中华旗下期刊共发表了4篇文章,我阅读了其中的3篇,每篇都有原则性的大问题
其他2篇我也在学术平台发过帖子进行了质疑
所以,学术失当行为就和家暴一样,都是只有“0次”和“无数次”两种情况
之前因为发现一作的生信SCI有很多原则性错误,以及常年咨询我endnote软件使用问题只付费0.1元,联系过青岛大学附属医院(青医)的这位作者及文章的通讯。
一作态度非常傲慢,并批评我没有临床经验(我是一个略懂统计的数据分析师,不是医学专业出身,我用的我对象的账号发的这个帖子);而通讯和骨科大主任则一起嘲笑了我对学术严谨的态度。
再次发现同一位一作的文章有统计学问题,我也不敢联系青医的通讯了,以免又被他们嘲笑。
而且青医喜欢保护自己人已经不是什么“秘密”了,比如说去年就曾看到某位匿名的网友控诉青医执业医师技能考试给自己医院的研究生放水(虽然当事人并没有直接说出这家医院是青医,但他的指向非常明确,评论区有不少人都猜到了)。
直接在这里发个帖子让大家围观一下
说实话我本来只会3种点选的统计软件(SPSS,Minitab,OriginLab),就是因为这个男医学生总让我看低俗信息,才会想到去复现他的生信文章。
我的家人中有多位医务人员,而且疫情期间医务人员群体牺牲较大,所以我一直尊重医务人员。这位男生因有学术问题求助而加我企鹅好友,我是真没想到他的素质会这么低,才会跟他一直有交流。
没想到被他0.1元红包恶心后的2年后的今天,我了解的统计软件已经多达12种了,应用的领域也不只有临床、生信统计,还会影像、GIS、语义分析、meta等等。
虽然他从来没有指导我任何医学领域相关的学习,但是间接”督促“我学会了若干类型医学数据的挖掘,这名男生也是我的“一贵人”。
之前也在别的平台收到了网友的咨询,她的数据总人数还可以,但阳性结局仅有18人怎么办
我回复说,10EPV原则宽松情况下,比如你的临床样本实在难以获取,是罕见病、手术之类的,可以放宽到5EPV,你多因素最多可以有3个自变量建模
另外对于阳性结局过少的情况下,不能只做ROC曲线,还要做PR召回曲线及求解AUC
以上是我个人长年进行数据统计分析的体会分享,供大家参考。
如果大家对于阳性样本数较少的数据进行统计数据建模+验证有其他更好的方法,也可以分享、探讨。
也希望如果有中华旗下期刊的编辑如果看到了我的这个帖子,能够回应我对文章统计学问题的质疑,以及督促作者对文章进行更正。
最后编辑于 2023-06-12 · 浏览 2812