【其他】Logistic回归中的粗OR(crude odds ratio)与校正OR(adjusted odds ratio)
当认为Xi可能为混杂因素时,那么在回归模型中引入Xi,则此时得到的Xi的OR值就是校正后的OR (adjusted odds ratio), 当回归模型中只有Xi单个变量时得到的OR值为粗OR(crude odds ratio), 即对于其它Xj而言,在不引入Xi且回归模型中只有Xj单个变量时的OR值就是该Xj的粗OR。
另外,在“卫生统计空间”看到了一篇关于“logistic回归介绍之六——混杂因素的识别及分析策略”的文章,把什么是混杂因素讲解的很清楚。
http://hi.baidu.com/healthstat/blog/item/51812125ddbb1e34c8955933.html
统计学方法的分析策略主要体现在多因素分析中。多因素分析过程需要仔细琢磨,尤其是混杂因素和交互作用。这里先介绍一下混杂因素的识别。
例如,研究某基因与存活的关系,其中涉及到性别问题,如果想判断性别是否是影响到基因与死亡关系的混杂因素,可以按下面的步骤试一试。
首先,我们先看一下基因与存活的关系,不理会性别,结果显示阴性存活率高于阳性,如下:
存活 | 死亡 | OR | 95%CI | |
阴性 | 31(51.67) | 29(48.33) | 1.548 | 1.022-2.345 |
阳性 | 53(35.33) | 97(64.67) |
然后再看一下性别与存活的关系,结果发现女性存活率低于男性。如下表:
存活 | 死亡 | OR | 95%CI | |
女性 | 21(31.82) | 45(68.18) | 0.724 | 0.502-1.042 |
男性 | 63(43.75) | 81(56.25) |
再看一下性别与基因的关系,结果发现女性的阳性率高于男性,结果如下:
阴性 | 阳性 | OR | 95%CI | |
女性 | 10(15.15) | 56(84.85) | 2.979 | 1.400-6.339 |
男性 | 50(34.72) | 94(65.28) |
这时候其实我们就可以得出结论了:性别应该是一个混杂因素,因为它与基因有关,而且与存活也有关,其实这与前面的“辛普森悖论”很相似。性别在不同的基因阳性和阴性中分布明显不同,阴性中女性的比例远远低于阳性中的比例。而女性的存活率又低于男性,所以这种分布的不均衡就导致了混杂作用。
所以,对于这一例子,我们所需要的结果就是校正性别后的结论,而不是不校正性别的粗结论。如果性别与存活无关,或者性别与基因无关,只要有一个无关,那性别就起不到混杂的作用。上述例子中,性别与存活的关系其实并不是很明显,所以,校正后的OR值与校正前的OR值差别并不是很大。
上述介绍的过程其实是一个比较繁琐的过程,有时候你也可以这么做:如果你怀疑某一因素可能是混杂因素,你可以比较校正和不校正两种情形下的OR值以及其他指标,比如似然比、AIC等。看他们的改变有多大,但这种改变的大小并无规定,更多的是根据经验而定。不管怎么样,如果很难确定一个因素是不是混杂因素,上述过程应该还是有所帮助的。