dxy logo
首页丁香园病例库全部版块
搜索
登录

【原创】Ⅰ型和Ⅱ型错误的概率α与β——我的解读#达人打卡#

发布于 2020-06-12 · 浏览 1512 · IP 重庆重庆
这个帖子发布于 4 年零 348 天前,其中的信息可能已发生改变或有所发展。

关于Ⅰ型和Ⅱ型错误的概率α与β之关系军事医学统计学第一版教材51页有这样一段内容,如下图所示:


img



我们可以先看一下,这个地方其实涉及到了两个概率密度函数,两条正态分布曲线。两条正态曲线下的总面积都是1,中间是它们各自的均值μ0μ

我们知道对于任意一个假设H0(无论其是真还是假),不管我们拒绝还是接受它,最终只可能犯一个错误。要么是Ⅰ型错误,要么是Ⅱ型错误。绝无可能同时犯Ⅰ型和Ⅱ型错误,这个很好理解。

我们在做出拒绝或者接受H0的时候,是基于一个给定的值α,统计学上把它叫作小概率事件发生的概率。

好了。我们接下来,需要思考的是P值。我们知道P值是指从规定的总体H0中作随机抽样,得到相应统计量的抽样误差大于等于该样本抽样误差的概率。为了便于理解,我们不妨假定这里的统计量就是样本的均值μ。对于正态分布的计量资料总体(我们称其均值为μ总体),我们从中随机抽样,可以得到很多个不同样本,不得不强调的是,这些样本的均值μ(我们称其为μ样本吧,抽了多少个样本,就相应的有多少个μ样本数值,这个容易理解)也会服从正态分布,并且因为是抽样,抽样必然会导致抽样误差ε,抽样误差ε的计算方法很简单,就是(μ样本-μ总体),因为有多个样本,也相应的有多个μ样本数值,这样我们就会得到一组抽样误差ε数值,不得不强调的是,这一组抽样误差ε数值会继续服从正态分布。

现在我结合刚才上面这一段表述给出一个重要的结论:假如所有的样本都是从规定的总体H0中随机抽取的,那么就会呈现几个正态分布,即所有样本的均值是正态分布的(称其为正态曲线一),所有样本均值的抽样误差是正态分布的(称其为正态曲线二)。只要是从规定的总体H0中随机抽取的样本,其均值就应该落在正态曲线一上面,其均值的抽样误差就应该落在正态曲线二上面。

我们现在再来看一下上面α与β关系的示意图。为了理解的方便,我们可以假定这里的两条曲线都是关于均值的正态分布曲线(我们不妨称其为曲线A和曲线B),对应于两个不同的总体(我们不妨称为总体一总体二),相当于是从两个不同的总体中做随机抽样得到的样本均值分布曲线。这是不难理解的。

我们假定现在有一个样本1,其均值为X1。我们的任务是要判断样本1到底来自哪个总体。我们事先并不知道这个样本1是来自总体一还是总体二,事实上是都有可能的,因为上面两条正态曲线有交叉,我们在交叉区域随便取一个均值X,它可能是曲线A的,也可能是曲线B的,不可能有一个完全的定论,所以统计学是实实在在的概率统计学,不会有百分之百的绝对。我们暂且假定H0规定的就是总体一。如果样本1真的是来自总体一,那么H0就是一个正确的假设。但现在的问题是我们存在一定的概率会将其拒绝。我们什么时候拒绝呢?当我们从H0规定的总体一中随机抽取一个样本2,但很不巧,样本2的均值X2竟然落在了曲线A两侧的小概率事件范围内(也就是α所对应的区域)。我们认为小概率事件在一次试验中几乎不可能发生,所以,我们基于给定的α值作出了拒绝。但问题是,样本1确实是来自H0规定的总体。这时候,我们就会犯下Ⅰ型错误。而假如样本1是来自总体二的,我们继续从H0规定的总体一中随机抽取一个样本3,样本3的均值X3竟然神奇地落在了曲线A的中间区域(也就是除去α之后的区域),我们基于小概率事件原理,选择接受H0,认为样本1来自总体一,可问题是样本1确实是来自总体二的,所以我们又犯错了,我们这时犯的错误是Ⅱ型错误,因为我们接受了一个错误的假设。在示意图中,我们可以看到α与β之间有一条竖直线,这是用于划分两者之间界线的。当竖直线右移时,α会增大,而β减小。当竖直线左移时,α会减小,而β增大。我们知道α值是事先确定的,所以理论上讲,这条竖直线的位置也是确定的。我们可以看到曲线B在竖直线左侧的部分就是β所对应的区域,这一块β区域位于曲线A的中间区域(也就是除去α之后的区域),我们基于小概率事件原理,认为样本3的均值属于曲线A,所以作出了错误的判断,而犯错的概率正是β所对应的面积。通过上面的表述,我们会发现α与β之间其实就是一种此消彼长的关系。

我们再深入理解一下P值,我们已经知道P值是指从规定的总体H0中作随机抽样,得到相应统计量的抽样误差大于等于该样本抽样误差的概率。我们沿用上面的总体一,总体二,曲线A,曲线B,样本1(均值X1),样本2(均值X2),样本3(均值X3)进行分析。样本1的抽样误差是(X1-μ0),样本2的抽样误差是(X2-μ0),样本3的抽样误差是(X3-μ0)。根据定义,P值就是(X2-μ0)或(X3-μ0)大于等于(X1-μ0)的概率。而这个P值是运用相应的统计方法,计算出相应的统计量(是基于样本原始统计量,进一步加工处理之后形成的要去做检验的统计量)以后,利用统计用表或利用统计软件得到的。

大家学统计时对α和β的关系感到迷惑过吗?
A感觉太难,完全无法理解5 人
B似懂非懂3 人
C仔细看看成,还是能理解的4 人
D感觉简单,理解完全没问题3 人

最后编辑于 2020-06-12 · 浏览 1512

1 7 7

全部讨论0

默认最新
avatar
1
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部