为何要预先选择样本量?
生物医学试验中合理的样本量是决定整个试验成败的重要因素之一。
样本量需要多大?答案当然是“视情况而定”。

GraphPad Prism官方统计教程中解释了样本量会受哪些因素影响。请注意,Prism不会进行任何样本量计算,但是会从几个不同的角度告诉大家如何决定合适的样本量、如何计算样本量等。
之前跟大家一起探讨了GraphPad如何辅助判断“样本量”。
点击回顾:GraphPad能解决样本量的问题吗?
本篇继续围绕“样本量”这个话题,我们来聊聊“为何要预先选择样本量?”。
灵魂拷问:“为什么要提前选择样本量?”
01
“一边研究一边确定样本量的吸引力?”
对于许多人而言,在研究开始前计算样本量是件令人讨厌的事情。
大家可能会提出疑问:为什么不在收集数据的时候进行分析呢?如果结果不具有统计学显著性,表示需要收集更多数据,重新分析。如果结果具有统计学显著性,就可以停止研究,不要把时间和金钱浪费在更多的数据收集上。
但这个方法会有一个问题:如果你不喜欢这个结果,你会想要继续做;但如果你喜欢这个结果,你会停下来。结果变成,如果虚假设(null hypothesis)为真,获得“显著”结果的机率远高于5%。
02
“模拟展示没有预先选择样本量的危险!”
下图我们通过模拟数据说明这一点。
我们通过绘制高斯分布的值,模拟数据(平均值 = 40,SD = 15,*这些值是任意的数值)。两组均使用完全相同的分布进行模拟。我们在每组中选择N = 5,计算非配对t检验并记录P值。然后我们给每组增加一名受试者(此时,N = 6),并重新计算t检验和P值。我们重复该过程,直至每组中的N = 100。然后我们重复三次整个模拟的过程。这些模拟是通过比较具有相同总体平均值的两组进行的。因此,我们获得的任何具有“统计学显著性”的结果都必须是巧合-I型错误。
该图在Y轴上绘制P值,在X轴上绘制样本量(每组)。 图底部的绿色阴影区域显示P值小于0.05,因此被视为“具有统计意义”。

绿色曲线显示了第一组模拟实验的结果。N = 7时,P值小于0.05,但对于所有其他样本量,P值高于0.05。红色曲线显示了第二个模拟实验。当N = 61以及N = 88或89时,P值均小于0.05。蓝色曲线显示了第三个模拟实验。当N = 92至N = 100时,其P值小于0.05。
如果采用顺序方法,我们会宣布所有三个实验的结果均“具有统计学显著性”。当绿色实验中的N = 7时,我们会停止,那么永远不会看到其曲线的虚线部分。当N = 61时,我们会停止红色实验,而当N = 92时,我们会停止蓝色实验。在这三种情况下,我们都将称结果具有“统计学显著性”。
由于这些模拟是为两个总体的真实平均值相同的值创建,因此任何具有“统计学显著性”的声明均为I型错误。如果虚假设为真(两个总体的平均值相同),我们期望在5%的实验中看到这种I型错误(如果我们使用传统的alpha = 0.05的定义,那么P值小于0.05的声明为重大)。
但采用这种顺序方法,我们所有三个实验都会导致I型错误。 如果将实验延长足够长的时间(无限长N),所有实验最终都将达到具有“统计学显著性”。当然,在某些情况下,即使不具有“统计学显著性”,最终也会放弃。这种顺序方法也将在超过5%实验中产生“显著”结果。所以即使零假设为真,该方法也是无效的。
03
最后,很重要的一点...
选择一个样本量且坚持下去是很重要的。
看到想要的结果就停下来,或者看到不想要的结果就继续进行,是一种自欺欺人的表现。换句话说,实验在结果不具有统计学显著性的时候继续,但在具有统计学显著性的时候停止,则错误地认为结果具有统计显着性的机会远大于5%。
有一些特殊的统计学技术用于顺序分析数据。如果结果不明确,可以增加更多受试者,如果结果清晰,就停止实验。
感兴趣的话,大家可以在一些高级统计学书籍中查找“顺序医学试验(sequential medical trials)”,了解更多信息。
|| 往期文章回顾
最后编辑于 2022-10-09 · 浏览 1501