Nhanes数据库介绍及使用 --不能不知道的权重计算

1. NHANES研究设计
- NHANES采用的是复杂多阶段的概率抽样(a complex, multistage, probability sampling design),并且对某些亚组进行oversampling(不知道中文怎么翻译好,保证有足够的亚组人群纳入研究)。其实这也是之后数据分析较为独特的原因。
- 四阶段抽样:分别是县(counties)、城市街区(segments)、住户(households)、个人(individuals)
2. 样本权重
- 样本权重(sample weight):反映了个体抽样的不等概率,这也是由之前的复杂多阶段抽样造成的。需要在之后的分析过程中进行校正
3. 多周期合并时样本权重计算
- 权重的选择:(1)所有变量都在in-home interview中收集,采用wtint4yr(注意变量名称,int,多周期的话要注意使用合并权重);(2)一些变量是在MEC中收集,采用wtmec4yr(注意变量名称,mec,多周期的话要注意使用合并权重);(3)一些变量是调查子样本的一部分,采用相应子样本的权重,如研究变量中有空腹甘油三酯(接受检测的人大约是接受MEC检查的样本的一半),采用wtsaf4yr,多周期的话要注意使用合并权重;(4)一些变量来自24小时饮食召回(24-hour dietary recall):变量来自第一天的recall,采用wtdrd1;使用两天的recall进行分析,采用wtdr2d,多周期的话要注意使用合并权重;
- 选择样本数量最少的变量对应的权重进行校正
- 多周期权重计算:(1)分析1999-2002四年(2 cycles)数据时,使用数据集中四年权重,如wtint4yr、wtmec4yr;(2)2001-2002及以后的样本权重,乘以相应的比例即可,具体见下图




