| 欢迎来到梦题库! 请登录 注册 今天是2026/3/3 |
![]() |
![]() |
12 | ||||
| 课程 | 题库 | 下载 | 答疑 |
六、多阶段抽样
多阶段抽样是先把总体划分为若干群,再把每群分别又都划分为若干次群,再把每个次群都划分为更小的群,依次类推,直到总体单位。抽样时,第一阶段在总体中随机地抽取若干群,第二阶段在中选群中分别随机地抽取若干次群,依次类推,直到抽取样本单位。例如,某省统计局要调查该省农民的收入情况,先在全省100个县中随机地抽20个县,又在中选的每个县中都抽了3个乡,又在中选的各乡中都随机抽10户农户,则构成了一个容量为n=10×3×20=600户的样本,这是三阶段抽样。无论是大群、次群或更小的群,每群的大小可以相等,也可以不相等;每次从中选群中抽取下一阶段的群数(或单位数)可以相等,也可以不相等。下面我们以两阶段抽样为例,讨论其特点及有关计算方法。
就两阶段抽样而言,先将总体划分为R个群,而每群中包含Mi(i=1,2……R)个单位,则总体单位数N=M1+M2+……+MR。抽样时,第一阶段从R个群中随机地抽取r个群,第二阶段从中选的r个群中分别又随机地抽mi(i=1,2……r)个单位,构成一个容量为n=m1+m2+……mr的样本。两阶段抽样是类型抽样和整群抽样的结合,这三种组织方式都是首先把总体分成若干群(类、组),不同之处如下表所示(见表7-8):
几种抽样组织方式的比较
表7-8
为了简化计算,设每群中包含的单位数都相等,为M个;从各个选群中抽出的单位数也都相等,为m个。两阶段抽样是先从总体R个群中随机地抽取r个群,又从r个群中都分别随机地抽取m个单位,组成一个容量n=rm的样本。
设xij表示第i(i=1,2……r)个样本群中第j(j=1,2……m)个样一单位的标志值,则第i个样本群的样本平均数
为:

全部样本平均数
可由下式计算:
两阶段抽样的抽样平均方差(抽样平均误差的平方)由两项组成:一项是平均群内方差的
,设:

为群间方差。则两阶段抽样的平均数的抽样平均误差μx为:

在实际计算时,若总体指标(如群内方差
和群间方差
)无法得到时,可用相应的样本指标代替。
【例题8】某县统计局在全县15个乡中随机抽取3个乡,若每乡各有1500农户,又在每个中选乡中随机抽取5户农户进行全年收入情况的调查,样本各阶段资料如下表,见表6-9:
表7-9 两阶段抽样的样本资料

试以95%的概率估计全县农民年人均收入的区间。
【分析与提示】

各群内方差(由样本资料计算):

∴平均组内方差:

又,群间方差(由样本资料计算):
则,抽样平均误差(μx),在重复抽样时为:

在不重复抽样时为:

概率F(t)=95%时,概率度t=1.96,全县农民年人均收入的区间,重复抽样时为:

【例题9】(2010年)依据第二次经济普查结果,某地区有零售业个体户10万户,从业人员数30万人。现拟对该地区零售业个体户的经营情况开展抽样调查。为比较不同抽样方法的适用性,分别采用简单随机抽样、以从业人员数为分层标志的分层随机抽样和以普查小区为群单位的整群抽样,各抽取500户个体户、500户个体户和60个普查小区(内含500户个体户)进行调查,推算结果如下表:
|
抽样方法 |
该地区零售业个体户销售额 | |
|
点估计值(亿元) |
方差估计值(亿元2) | |
|
简单随机抽样 |
535 |
2982 |
|
分层随机抽样 |
542 |
765 |
|
整群抽样 |
524 |
6535 |
要求:
1.分别计算出在95%概率保证程度下三种抽样方法下零售业个体户销售额估计量的最大相对误差,哪种抽样方法下的估计量精度最高?(保留1位小数)
2.设计效应(Deff)的概念是什么?请计算分层随机抽样和整群抽样的设计效应。(保留3位小数)
3.从实际出发,对上述三种抽样方法的适用性进行简要评价。
【分析与提示】绝对误差:△=Z*S 概率保证度乘以标准差
相对误差: E=△/Y
1、三个方差开根号后,分别为:54.6、 27.7、 80.8
简单随机抽样:E=1.96*54.6/535=0.2
分层随机抽样:E=1.96*27.7/542=0.3
整群抽样 :E=1.96*80.8/524=0.1
2、设计效应:定义为任意抽样方式下的抽样方差除以简单随机抽样方式下抽样方差的商。不同抽样方式下的设计效应分别为:
简单随机抽样的deff=1 分层随机抽样的deff<=1
整群随机抽样的deff>= 1机械随机抽样的deff≈1
分层抽样=765/2982=0.257
整群抽样=6535/2982=2.191
简单随机抽样、系统抽样、分层抽样的共同特点是在抽样过程中每一个个体被抽取的概率相等,体现了这些抽样方法的客观性和公平性.其中简单随机抽样是最简单和最基本的抽样方法,在进行系统抽样和分层抽样时都要用到简单随机抽样方法.当总体中的个体数较少时,常采用简单随机抽样;当总体中的个体数较多时,常采用系统抽样;当已知总体由差异明显的几部分组成时,而这一差异又恰好与研究的问题密切相关时,常采用分层抽样.
【例题10】在某地实施一项抽样调查,根据以往经验,预计空户率为5%,因拒访等原因造成的无回答率为15%。若要保证最终有效样本量能够达到200户,最少应抽取多少样本户?
【分析与提示】设要抽取X户,有5%的空户率,则能抽上的只有(1-5%),无回答率为15%,说明能回答的只有1-15%
X(1-5%)(1-15%)=200 X=247.2 取整=248
【例题11】(2012年)己知某企业职工的收入情况如下:
|
不同的收 入类型 |
职工人数 (Ni) |
抽样人数 (ni) |
年平均收入(元) (x) |
收入标准差(元) (Si) |
|
高收入 |
200 |
10 |
13200 |
480 |
|
一般收入 |
1600 |
80 |
8040 |
300 |
|
低收入 |
1200 |
60 |
6000 |
450 |
|
合计 |
3000 |
150 |
- |
- |
根据上表资料计算:1、抽样年平均收入;2、年平均收入的抽样误差;3、概率为95%时,职工月平均收入的可能范围。
【分析与提示】
1、抽样年平均收入×
职工月平均收入=
(元)
2、年平均收入的抽样误差;
抽样误差
概率为95%时,职工月平均收入的可能范围:
抽样极限误差=0.6827×29.60=20.21(元)。
下限值=630.67-20.21=610.46(元)
上限值=630.67+20.21=650.88(元)
职工月平均收入的可能范围: (610.46元--650.88元)。
六、多阶段抽样
多阶段抽样是先把总体划分为若干群,再把每群分别又都划分为若干次群,再把每个次群都划分为更小的群,依次类推,直到总体单位。抽样时,第一阶段在总体中随机地抽取若干群,第二阶段在中选群中分别随机地抽取若干次群,依次类推,直到抽取样本单位。例如,某省统计局要调查该省农民的收入情况,先在全省100个县中随机地抽20个县,又在中选的每个县中都抽了3个乡,又在中选的各乡中都随机抽10户农户,则构成了一个容量为n=10×3×20=600户的样本,这是三阶段抽样。无论是大群、次群或更小的群,每群的大小可以相等,也可以不相等;每次从中选群中抽取下一阶段的群数(或单位数)可以相等,也可以不相等。下面我们以两阶段抽样为例,讨论其特点及有关计算方法。
就两阶段抽样而言,先将总体划分为R个群,而每群中包含Mi(i=1,2……R)个单位,则总体单位数N=M1+M2+……+MR。抽样时,第一阶段从R个群中随机地抽取r个群,第二阶段从中选的r个群中分别又随机地抽mi(i=1,2……r)个单位,构成一个容量为n=m1+m2+……mr的样本。两阶段抽样是类型抽样和整群抽样的结合,这三种组织方式都是首先把总体分成若干群(类、组),不同之处如下表所示(见表7-8):
几种抽样组织方式的比较
表7-8
为了简化计算,设每群中包含的单位数都相等,为M个;从各个选群中抽出的单位数也都相等,为m个。两阶段抽样是先从总体R个群中随机地抽取r个群,又从r个群中都分别随机地抽取m个单位,组成一个容量n=rm的样本。
设xij表示第i(i=1,2……r)个样本群中第j(j=1,2……m)个样一单位的标志值,则第i个样本群的样本平均数
为:

全部样本平均数
可由下式计算:
两阶段抽样的抽样平均方差(抽样平均误差的平方)由两项组成:一项是平均群内方差的
,设:

为群间方差。则两阶段抽样的平均数的抽样平均误差μx为:

在实际计算时,若总体指标(如群内方差
和群间方差
)无法得到时,可用相应的样本指标代替。
【例题8】某县统计局在全县15个乡中随机抽取3个乡,若每乡各有1500农户,又在每个中选乡中随机抽取5户农户进行全年收入情况的调查,样本各阶段资料如下表,见表6-9:
表7-9 两阶段抽样的样本资料

试以95%的概率估计全县农民年人均收入的区间。
【分析与提示】

各群内方差(由样本资料计算):

∴平均组内方差:

又,群间方差(由样本资料计算):
则,抽样平均误差(μx),在重复抽样时为:

在不重复抽样时为:

概率F(t)=95%时,概率度t=1.96,全县农民年人均收入的区间,重复抽样时为:

【例题9】(2010年)依据第二次经济普查结果,某地区有零售业个体户10万户,从业人员数30万人。现拟对该地区零售业个体户的经营情况开展抽样调查。为比较不同抽样方法的适用性,分别采用简单随机抽样、以从业人员数为分层标志的分层随机抽样和以普查小区为群单位的整群抽样,各抽取500户个体户、500户个体户和60个普查小区(内含500户个体户)进行调查,推算结果如下表:
|
抽样方法 |
该地区零售业个体户销售额 | |
|
点估计值(亿元) |
方差估计值(亿元2) | |
|
简单随机抽样 |
535 |
2982 |
|
分层随机抽样 |
542 |
765 |
|
整群抽样 |
524 |
6535 |
要求:
1.分别计算出在95%概率保证程度下三种抽样方法下零售业个体户销售额估计量的最大相对误差,哪种抽样方法下的估计量精度最高?(保留1位小数)
2.设计效应(Deff)的概念是什么?请计算分层随机抽样和整群抽样的设计效应。(保留3位小数)
3.从实际出发,对上述三种抽样方法的适用性进行简要评价。
【分析与提示】绝对误差:△=Z*S 概率保证度乘以标准差
相对误差: E=△/Y
1、三个方差开根号后,分别为:54.6、 27.7、 80.8
简单随机抽样:E=1.96*54.6/535=0.2
分层随机抽样:E=1.96*27.7/542=0.3
整群抽样 :E=1.96*80.8/524=0.1
2、设计效应:定义为任意抽样方式下的抽样方差除以简单随机抽样方式下抽样方差的商。不同抽样方式下的设计效应分别为:
简单随机抽样的deff=1 分层随机抽样的deff<=1
整群随机抽样的deff>= 1机械随机抽样的deff≈1
分层抽样=765/2982=0.257
整群抽样=6535/2982=2.191
简单随机抽样、系统抽样、分层抽样的共同特点是在抽样过程中每一个个体被抽取的概率相等,体现了这些抽样方法的客观性和公平性.其中简单随机抽样是最简单和最基本的抽样方法,在进行系统抽样和分层抽样时都要用到简单随机抽样方法.当总体中的个体数较少时,常采用简单随机抽样;当总体中的个体数较多时,常采用系统抽样;当已知总体由差异明显的几部分组成时,而这一差异又恰好与研究的问题密切相关时,常采用分层抽样.
【例题10】在某地实施一项抽样调查,根据以往经验,预计空户率为5%,因拒访等原因造成的无回答率为15%。若要保证最终有效样本量能够达到200户,最少应抽取多少样本户?
【分析与提示】设要抽取X户,有5%的空户率,则能抽上的只有(1-5%),无回答率为15%,说明能回答的只有1-15%
X(1-5%)(1-15%)=200 X=247.2 取整=248
【例题11】(2012年)己知某企业职工的收入情况如下:
|
不同的收 入类型 |
职工人数 (Ni) |
抽样人数 (ni) |
年平均收入(元) (x) |
收入标准差(元) (Si) |
|
高收入 |
200 |
10 |
13200 |
480 |
|
一般收入 |
1600 |
80 |
8040 |
300 |
|
低收入 |
1200 |
60 |
6000 |
450 |
|
合计 |
3000 |
150 |
- |
- |
根据上表资料计算:1、抽样年平均收入;2、年平均收入的抽样误差;3、概率为95%时,职工月平均收入的可能范围。
【分析与提示】
1、抽样年平均收入×
职工月平均收入=
(元)
2、年平均收入的抽样误差;
抽样误差
概率为95%时,职工月平均收入的可能范围:
抽样极限误差=0.6827×29.60=20.21(元)。
下限值=630.67-20.21=610.46(元)
上限值=630.67+20.21=650.88(元)
职工月平均收入的可能范围: (610.46元--650.88元)。
![]() |
|
| 高级统计师选课中心 | |