欢迎来到梦题库!                  请登录       注册      今天是2026/3/4
12
课程 题库 下载 答疑
你当前的位置:网站首页>>实务精讲

2020年高级统计实务教程知识点精讲59

更新日期:2020/2/21 17:00:51

第四节 抽样调查的几种组织形式

一、选择抽样组织形式的原则

进行抽样调查的核心问题是由样本指标合理地推断总体指标。可见,抽样推断的基础是样本。如何在总体中抽选的样本对总体更具有代表性,应该是我们要关心的问题。然而,社会经济现象是复杂的,各有不同的特点。抽取样本时要根据其不同特点,选用合适的抽样组织方式。但针对某种具体现象选择哪种抽样组织方式,除根据现象本身的特点外,还应考虑如下两点原则:

(一)抽取样本单位的随机性原则。这就是说,在组织抽样时,应保证总体中每个单位都有同等的机会被抽中。

(二)实现最大的抽样效果原则。这就是说,以较少的调查费用获得较好的抽样效果。在组织抽样调查时,我们不能片面地强调抽样误差最小的方案是最好的方案。因为抽样误差愈小,则调查费用也应要相应多些。实际上,在许多情况下是允许有一定误差范围的,我们的任务是在一定允许的误差范围内,要选择调查经费最少的方案。

本节介绍几种常用的抽样组织形式,在实际抽样工作中针对不同情况,参考选用。2020年高级统计师报名时间高级统计师考试教材统计时政热点统计师辅导高级统计师历年真购买点图片

二、简单随机抽样

简单随机抽样,又称纯随机抽样,是按照随机原则直接从总体中抽取一部分单位作为样本,这是最基本的一种组织形式。这种组织形式适应于均匀总体,即具有某种调查标志的单位均匀地分布于总体的各个部分。在进行抽样之前,应首先明确抽样框。抽样框就是可以选择作为样本的总体单位的名单。然后对抽样框中的每个单位进行编号,随机地来抽选出必要的单位数。

前面几节所讨论的有关概念和计算公式都是针对简单随机抽样而言的,即前面介绍的抽样误差和必要抽样数目的计算方法,对简单随机抽样是适应的。

三、类型抽样

类型抽样又称分类抽样或分层抽样,是先将总体中的所有单位按照调查标志或与调查有关的标志分成若干类,然后在各类中随机地抽取样本单位。这种抽样的方法,是将分组法和简单随机抽样相结合的方法。分组要运用对调查对象已了解的知识,而在各类中抽选样本单位则要遵守随机原则。分类抽样的好处就是抽取的样本对总体代表性高,抽样误差较小。

类型抽样又分作等比例抽样和不等比例抽样。等比例抽样是按各类总体单位数占全部总体单位数的比例在各类中分配样本单位数的,使各类样本单位数与样本总容量之比等于各类总体单位数与全部总体单位数之比。没把总体共分成K个组(类),Ni(i=1,2,……k)是第i组的总体单位数,ni是第i组分配的样本单位数,则样本总容量

全部总体单位数

,称为等比例抽样,否则为不等比例抽样。

在类型抽样时,可用简单平均的方法计算第i(i=1,2,……k)类的样本平均数,即

式中表示第i个样本单位的标志值。用加权平均的方法计算全体样本的平均数,权数是各类的总体单位数,在等比例抽样时,权数也可以是样本单位数,即

在等比例抽样时,也可以:

在类型抽样时,可用下面的公式计算抽样平均误差:

1.样本平均数的抽样平均误差μx:

代表第i个类(组)的组内方差,在重复抽样时:

在实际计算时,如果各组内方差未知,可用各组的样本方差

代替。

现举例说明类型抽样条件下抽样平均误差的计算方法。设某企业有120名工人,其中有新职工80名,老职工40名,现按总体单位的5%采用分类抽样方式,在总体中共抽取6名 工人调查他们的月工资水平,各项资料如下表:

表7-5

若上述样本单位是在重复抽样条件抽取的,则抽样平均误差为:

若把握程度为95%,则相应的概率度为t=1.96,抽样极限误差为:

总体平均工资的区间为:

即,这120名工人的平均工资在93.06元至106.94元之间。

在不重复抽样条件下,类型抽样的抽样平均误差为:

若在等比例抽样条件下:,则有:

其中,是修正系数。因为我们是从分好的各个组中进行不重复抽样,所以是分别对各组的组内方差进行修正。

仍用上面的资料进行计算。若上述样本单位是按不重复抽样方法抽取的,则抽样平均误差为:

若把握程度仍为95%,全体工人的平均工资的区间为:

即93.24元至106.76元之间。

2.样本成数的抽样平均误差(μp):

成数的抽样平均误差与平均数的抽样平均误差道理是一样的,只有把P(1-Pi)视为第i个组内成数的方差代替即可,即:

在重复抽样条件下:

式中,,是成数的平均组内方差。在不重复抽样条件下:

在等比例抽样时,,则有:

四、等距抽样

等距抽样又称机械抽样,是先将总体各单位按一定顺序排队,根据总体单位数和样本单位数计算出抽样间隔,然后按照这个间隔抽选样本单位。在把总体单位进行排队时,分无关标志排队和有关标志排队两种方法。所谓无关标志排队就是把总体单位按照与调查标志无关的标志排队,如调查学生成绩按姓氏笔划排队。所谓有关标志排队,是按与调查的标志有关系的标志排队,如调查工人的工资收入按工龄排队。

设全及总体中共有N个单位,拟从中抽取几个单位作为样本。把N个单位排队后,再把N个单位分成几个相等的小组,每一组中都有个单位。等距抽样常用的有三种方法:随机起点等距抽样、半距起点等距抽样和随机起点对称等距抽样。

1.随机起点等距抽样。先在第一小组的f个单位中随机抽选一个单位,然后每隔f个单位抽取一个单位,直至抽够n个单位。这种抽样的随机性表现在抽取第一个样本单位。当第一个样本单位的位置确定以后,其余各样本单位的位置也训确定了。若是有关标志排队,这样抽到的样本单位其标志值可能出现系统地偏高或偏低的情况。

2.半距起点等距抽样。即把第一小组的中点单位定为第一组的中选单位,然后每隔f个单位抽选个单位,直至抽够n个单位。如果是有关标志排队,这种抽样方法虽然从某种程序上避免了上述那种随机起点等距抽样带来的不足,但具有破坏随机原则的可能性。

3.随机起点对称等距抽样。即从第一个小组中随机抽出一个单位作为第一个样本单位,然后每两个小组合并成一个大组,在每个大组中对称抽出两个样本单位,使每对样本单位与其相近的下限或上限的距离相等。若样本单位数n为奇数时,经过合并成大组后,将剩下一个小组。则应把这个组放在中心位置,先在这个组随机确定一个单位作为第一个单位单位,然后在该组两边并成大组,仍用对称抽样的办法抽出样本单位。随机起点对称等距抽样方法,保留了前两种方法的优点,避免了他们的局限性。

等距抽样的抽样平均误差是这样考虑的:无关标志排队等距抽样,近似于简单随机抽样。因为按无关标志排队时采用的标志与调查项目无关,则视为把总体单位不加任何选择,简单排列。所以,每个单位排在任何位置都是随机的,因而每个单位被抽中作为样本单位也是随机的。因此,计算抽样平均误差时,一般认为可以按照简单随机抽样的方法去处理。

【例题6】有一块玉米地长250米,宽70米,共种有150垅玉米。现对这块地的玉米采用等距抽样方式,抽取30个3米长垅为样本,实割实测,推算这块地的玉米产量。其工作步骤和计算程序如下:

玉米长势如何是自然形成的,可认为是无关标志排队,拟采用半距起点等距抽样方法(采用随机起点等距抽样亦可),第一个样本间隔的中点选点选取第一个样本单位,即从第米处(实际在地边第三垅的中点),前后各取1.5米为第一个样本单位。以后在每隔1250米前后各1.5米取一个样本单位,一直取够30个样本单位为止。实割实测后得各样本单位的产量。

【分析与提示】

如表7-6:样本点实测产量分组表

表7-6

在95%的概率保证下,每3米长垅的平均产量的可能区间是:

1.55±1.96×0.035,即在1.48斤至1.62斤之间。

每亩地平均产量[ZK(]=样本单位平均产量×每亩地样本单位数

则平均亩产量的可能范围是:

738.1±1.96×16.67,即在705.43斤至770.77斤之间。

整块玉米地的面积是:

则整块玉米地的总产量的区间范围是:

1817.54斤至20232.71斤之间,概率为95%。

有关标志排队等距抽样可以看作是一种特殊的类型抽样,只不过是分类更细,且在每一类中只抽一个样本单位。所以,其抽样平均误差的计算方法一般认为可以用类型抽样条件下的计算公式计算。即

平均数的抽样平均误差,类型抽样时为:

注意到等距抽样时,每组只抽一个单位,即ni=1,则:

式中,称为平均组内方差,是各组内方差的简单算术平均数。并且可以看出,等距抽样虽然不是重复抽样,但它实际上和重复抽样一样,不再区分重复抽样与不重复抽样两个计算公式。同理,成数的抽样平均误差计算公式为:

在实际计算时,总体中各等距分组的组内方差一般是未知的,但也无法用样本资料代替,因为一个组内只抽取一个样本单位。这时,我们可以用有关标志的各个等距分组的组内方差来近似地代替。

五、整群抽样

整群抽样是先将总体分为若干群,然后随机地抽选一些群,对抽到的样本群中的所有单位进行全面调查。若把一群看作是一个单位,则整群抽样就可以视为扩大了总体单位的简单随机抽样。把总体分为若干群,每一群中包括的单位数可以相等,也可以不相等。

下面讨论整群抽样的抽样平均误差。设把总体分成R群,随机地从中抽取r群组成样本。为了简便计算,我们假设各群中包括的单位数都相等,设都包括有M个单位。由此不难类推各群中包括的单位数不相等的情况。

设第i(i=1,2……R)群中第j(j=1,2……m)个单位的标志值为xij,则第i群的标志值xi可用其各单位的标志值的平均数表示,即

则总体所有群的平均数为:

平均数的群间方差

依照简单随机抽样的情形,整群抽样的平均数的抽样平均误差为:

在计算时,若总体群间方差未知,也可以用样本群间方差代替。

又,设第i群的成数为;总体成数为。因为已设各群中的总体单位都相等,为M,所以,。则成数的群间方差为:

成数的抽样平均误差为:

【例题7】某县统计局从全县1000个村中随机抽出100个村,调查各户的家禽饲养只数,得如下样本资料(见表),假设每村所包括的户数都相等,试以95.45%的概率估计全县平均每户饲养家禽的只数的区间范围。

整群抽样样本资料

表7-7

【分析与提示】

六、多阶段抽样

多阶段抽样是先把总体划分为若干群,再把每群分别又都划分为若干次群,再把每个次群都划分为更小的群,依次类推,直到总体单位。抽样时,第一阶段在总体中随机地抽取若干群,第二阶段在中选群中分别随机地抽取若干次群,依次类推,直到抽取样本单位。例如,某省统计局要调查该省农民的收入情况,先在全省100个县中随机地抽20个县,又在中选的每个县中都抽了3个乡,又在中选的各乡中都随机抽10户农户,则构成了一个容量为n=10×3×20=600户的样本,这是三阶段抽样。无论是大群、次群或更小的群,每群的大小可以相等,也可以不相等;每次从中选群中抽取下一阶段的群数(或单位数)可以相等,也可以不相等。下面我们以两阶段抽样为例,讨论其特点及有关计算方法。

就两阶段抽样而言,先将总体划分为R个群,而每群中包含Mi(i=1,2……R)个单位,则总体单位数N=M1+M2+……+MR。抽样时,第一阶段从R个群中随机地抽取r个群,第二阶段从中选的r个群中分别又随机地抽mi(i=1,2……r)个单位,构成一个容量为n=m1+m2+……mr的样本。两阶段抽样是类型抽样和整群抽样的结合,这三种组织方式都是首先把总体分成若干群(类、组),不同之处如下表所示(见表7-8):

几种抽样组织方式的比较

表7-8

为了简化计算,设每群中包含的单位数都相等,为M个;从各个选群中抽出的单位数也都相等,为m个。两阶段抽样是先从总体R个群中随机地抽取r个群,又从r个群中都分别随机地抽取m个单位,组成一个容量n=rm的样本。

设xij表示第i(i=1,2……r)个样本群中第j(j=1,2……m)个样一单位的标志值,则第i个样本群的样本平均数为:

全部样本平均数可由下式计算:

两阶段抽样的抽样平均方差(抽样平均误差的平方)由两项组成:一项是平均群内方差的,设:

为群间方差。则两阶段抽样的平均数的抽样平均误差μx为:

在实际计算时,若总体指标(如群内方差和群间方差)无法得到时,可用相应的样本指标代替。

【例题8】某县统计局在全县15个乡中随机抽取3个乡,若每乡各有1500农户,又在每个中选乡中随机抽取5户农户进行全年收入情况的调查,样本各阶段资料如下表,见表6-9:

表7-9          两阶段抽样的样本资料 

试以95%的概率估计全县农民年人均收入的区间。

【分析与提示】

各群内方差(由样本资料计算):

∴平均组内方差:

又,群间方差(由样本资料计算):

则,抽样平均误差(μx),在重复抽样时为:

在不重复抽样时为:

概率F(t)=95%时,概率度t=1.96,全县农民年人均收入的区间,重复抽样时为:

【例题9】(2010年)依据第二次经济普查结果,某地区有零售业个体户10万户,从业人员数30万人。现拟对该地区零售业个体户的经营情况开展抽样调查。为比较不同抽样方法的适用性,分别采用简单随机抽样、以从业人员数为分层标志的分层随机抽样和以普查小区为群单位的整群抽样,各抽取500户个体户、500户个体户和60个普查小区(内含500户个体户)进行调查,推算结果如下表:

抽样方法

该地区零售业个体户销售额

点估计值(亿元)

方差估计值(亿元2)

简单随机抽样

535

2982

分层随机抽样

542

765

整群抽样

524

6535

要求:

1.分别计算出在95%概率保证程度下三种抽样方法下零售业个体户销售额估计量的最大相对误差,哪种抽样方法下的估计量精度最高?(保留1位小数)

2.设计效应(Deff)的概念是什么?请计算分层随机抽样和整群抽样的设计效应。(保留3位小数)

3.从实际出发,对上述三种抽样方法的适用性进行简要评价。

【分析与提示】绝对误差:△=Z*S   概率保证度乘以标准差

相对误差: E=△/Y

 1、三个方差开根号后,分别为:54.6、 27.7、 80.8

简单随机抽样:E=1.96*54.6/535=0.2

分层随机抽样:E=1.96*27.7/542=0.3

整群抽样    :E=1.96*80.8/524=0.1

2、设计效应:定义为任意抽样方式下的抽样方差除以简单随机抽样方式下抽样方差的商。不同抽样方式下的设计效应分别为:

简单随机抽样的deff=1   分层随机抽样的deff<=1

整群随机抽样的deff>=   1机械随机抽样的deff≈1

分层抽样=765/2982=0.257

整群抽样=6535/2982=2.191

简单随机抽样、系统抽样、分层抽样的共同特点是在抽样过程中每一个个体被抽取的概率相等,体现了这些抽样方法的客观性和公平性.其中简单随机抽样是最简单和最基本的抽样方法,在进行系统抽样和分层抽样时都要用到简单随机抽样方法.当总体中的个体数较少时,常采用简单随机抽样;当总体中的个体数较多时,常采用系统抽样;当已知总体由差异明显的几部分组成时,而这一差异又恰好与研究的问题密切相关时,常采用分层抽样.

【例题10】在某地实施一项抽样调查,根据以往经验,预计空户率为5%,因拒访等原因造成的无回答率为15%。若要保证最终有效样本量能够达到200户,最少应抽取多少样本户?

【分析与提示】设要抽取X户,有5%的空户率,则能抽上的只有(1-5%),无回答率为15%,说明能回答的只有1-15%

X(1-5%)(1-15%)=200    X=247.2 取整=248

【例题11】(2012年)己知某企业职工的收入情况如下:

不同的收

入类型

职工人数

(Ni)

抽样人数

(ni)

年平均收入(元)

(x)

收入标准差(元)

(Si)

高收入

200

10

13200

480

一般收入

1600

80

8040

300

低收入

1200

60

6000

450

合计

3000

150

-

-

  根据上表资料计算:1、抽样年平均收入;2、年平均收入的抽样误差;3、概率为95%时,职工月平均收入的可能范围。

【分析与提示】

1、抽样年平均收入×

职工月平均收入=(元)

2、年平均收入的抽样误差;

抽样误差

概率为95%时,职工月平均收入的可能范围:

抽样极限误差=0.6827×29.60=20.21(元)。

下限值=630.67-20.21=610.46(元)

上限值=630.67+20.21=650.88(元)

职工月平均收入的可能范围: (610.46元--650.88元)。

【上一条】   【下一条】
你当前的位置:网站首页>>实务精讲

2020年高级统计实务教程知识点精讲59

更新日期:2020/2/21 17:00:51

第四节 抽样调查的几种组织形式

一、选择抽样组织形式的原则

进行抽样调查的核心问题是由样本指标合理地推断总体指标。可见,抽样推断的基础是样本。如何在总体中抽选的样本对总体更具有代表性,应该是我们要关心的问题。然而,社会经济现象是复杂的,各有不同的特点。抽取样本时要根据其不同特点,选用合适的抽样组织方式。但针对某种具体现象选择哪种抽样组织方式,除根据现象本身的特点外,还应考虑如下两点原则:

(一)抽取样本单位的随机性原则。这就是说,在组织抽样时,应保证总体中每个单位都有同等的机会被抽中。

(二)实现最大的抽样效果原则。这就是说,以较少的调查费用获得较好的抽样效果。在组织抽样调查时,我们不能片面地强调抽样误差最小的方案是最好的方案。因为抽样误差愈小,则调查费用也应要相应多些。实际上,在许多情况下是允许有一定误差范围的,我们的任务是在一定允许的误差范围内,要选择调查经费最少的方案。

本节介绍几种常用的抽样组织形式,在实际抽样工作中针对不同情况,参考选用。2020年高级统计师报名时间高级统计师考试教材统计时政热点统计师辅导高级统计师历年真购买点图片

二、简单随机抽样

简单随机抽样,又称纯随机抽样,是按照随机原则直接从总体中抽取一部分单位作为样本,这是最基本的一种组织形式。这种组织形式适应于均匀总体,即具有某种调查标志的单位均匀地分布于总体的各个部分。在进行抽样之前,应首先明确抽样框。抽样框就是可以选择作为样本的总体单位的名单。然后对抽样框中的每个单位进行编号,随机地来抽选出必要的单位数。

前面几节所讨论的有关概念和计算公式都是针对简单随机抽样而言的,即前面介绍的抽样误差和必要抽样数目的计算方法,对简单随机抽样是适应的。

三、类型抽样

类型抽样又称分类抽样或分层抽样,是先将总体中的所有单位按照调查标志或与调查有关的标志分成若干类,然后在各类中随机地抽取样本单位。这种抽样的方法,是将分组法和简单随机抽样相结合的方法。分组要运用对调查对象已了解的知识,而在各类中抽选样本单位则要遵守随机原则。分类抽样的好处就是抽取的样本对总体代表性高,抽样误差较小。

类型抽样又分作等比例抽样和不等比例抽样。等比例抽样是按各类总体单位数占全部总体单位数的比例在各类中分配样本单位数的,使各类样本单位数与样本总容量之比等于各类总体单位数与全部总体单位数之比。没把总体共分成K个组(类),Ni(i=1,2,……k)是第i组的总体单位数,ni是第i组分配的样本单位数,则样本总容量

全部总体单位数

,称为等比例抽样,否则为不等比例抽样。

在类型抽样时,可用简单平均的方法计算第i(i=1,2,……k)类的样本平均数,即

式中表示第i个样本单位的标志值。用加权平均的方法计算全体样本的平均数,权数是各类的总体单位数,在等比例抽样时,权数也可以是样本单位数,即

在等比例抽样时,也可以:

在类型抽样时,可用下面的公式计算抽样平均误差:

1.样本平均数的抽样平均误差μx:

代表第i个类(组)的组内方差,在重复抽样时:

在实际计算时,如果各组内方差未知,可用各组的样本方差

代替。

现举例说明类型抽样条件下抽样平均误差的计算方法。设某企业有120名工人,其中有新职工80名,老职工40名,现按总体单位的5%采用分类抽样方式,在总体中共抽取6名 工人调查他们的月工资水平,各项资料如下表:

表7-5

若上述样本单位是在重复抽样条件抽取的,则抽样平均误差为:

若把握程度为95%,则相应的概率度为t=1.96,抽样极限误差为:

总体平均工资的区间为:

即,这120名工人的平均工资在93.06元至106.94元之间。

在不重复抽样条件下,类型抽样的抽样平均误差为:

若在等比例抽样条件下:,则有:

其中,是修正系数。因为我们是从分好的各个组中进行不重复抽样,所以是分别对各组的组内方差进行修正。

仍用上面的资料进行计算。若上述样本单位是按不重复抽样方法抽取的,则抽样平均误差为:

若把握程度仍为95%,全体工人的平均工资的区间为:

即93.24元至106.76元之间。

2.样本成数的抽样平均误差(μp):

成数的抽样平均误差与平均数的抽样平均误差道理是一样的,只有把P(1-Pi)视为第i个组内成数的方差代替即可,即:

在重复抽样条件下:

式中,,是成数的平均组内方差。在不重复抽样条件下:

在等比例抽样时,,则有:

四、等距抽样

等距抽样又称机械抽样,是先将总体各单位按一定顺序排队,根据总体单位数和样本单位数计算出抽样间隔,然后按照这个间隔抽选样本单位。在把总体单位进行排队时,分无关标志排队和有关标志排队两种方法。所谓无关标志排队就是把总体单位按照与调查标志无关的标志排队,如调查学生成绩按姓氏笔划排队。所谓有关标志排队,是按与调查的标志有关系的标志排队,如调查工人的工资收入按工龄排队。

设全及总体中共有N个单位,拟从中抽取几个单位作为样本。把N个单位排队后,再把N个单位分成几个相等的小组,每一组中都有个单位。等距抽样常用的有三种方法:随机起点等距抽样、半距起点等距抽样和随机起点对称等距抽样。

1.随机起点等距抽样。先在第一小组的f个单位中随机抽选一个单位,然后每隔f个单位抽取一个单位,直至抽够n个单位。这种抽样的随机性表现在抽取第一个样本单位。当第一个样本单位的位置确定以后,其余各样本单位的位置也训确定了。若是有关标志排队,这样抽到的样本单位其标志值可能出现系统地偏高或偏低的情况。

2.半距起点等距抽样。即把第一小组的中点单位定为第一组的中选单位,然后每隔f个单位抽选个单位,直至抽够n个单位。如果是有关标志排队,这种抽样方法虽然从某种程序上避免了上述那种随机起点等距抽样带来的不足,但具有破坏随机原则的可能性。

3.随机起点对称等距抽样。即从第一个小组中随机抽出一个单位作为第一个样本单位,然后每两个小组合并成一个大组,在每个大组中对称抽出两个样本单位,使每对样本单位与其相近的下限或上限的距离相等。若样本单位数n为奇数时,经过合并成大组后,将剩下一个小组。则应把这个组放在中心位置,先在这个组随机确定一个单位作为第一个单位单位,然后在该组两边并成大组,仍用对称抽样的办法抽出样本单位。随机起点对称等距抽样方法,保留了前两种方法的优点,避免了他们的局限性。

等距抽样的抽样平均误差是这样考虑的:无关标志排队等距抽样,近似于简单随机抽样。因为按无关标志排队时采用的标志与调查项目无关,则视为把总体单位不加任何选择,简单排列。所以,每个单位排在任何位置都是随机的,因而每个单位被抽中作为样本单位也是随机的。因此,计算抽样平均误差时,一般认为可以按照简单随机抽样的方法去处理。

【例题6】有一块玉米地长250米,宽70米,共种有150垅玉米。现对这块地的玉米采用等距抽样方式,抽取30个3米长垅为样本,实割实测,推算这块地的玉米产量。其工作步骤和计算程序如下:

玉米长势如何是自然形成的,可认为是无关标志排队,拟采用半距起点等距抽样方法(采用随机起点等距抽样亦可),第一个样本间隔的中点选点选取第一个样本单位,即从第米处(实际在地边第三垅的中点),前后各取1.5米为第一个样本单位。以后在每隔1250米前后各1.5米取一个样本单位,一直取够30个样本单位为止。实割实测后得各样本单位的产量。

【分析与提示】

如表7-6:样本点实测产量分组表

表7-6

在95%的概率保证下,每3米长垅的平均产量的可能区间是:

1.55±1.96×0.035,即在1.48斤至1.62斤之间。

每亩地平均产量[ZK(]=样本单位平均产量×每亩地样本单位数

则平均亩产量的可能范围是:

738.1±1.96×16.67,即在705.43斤至770.77斤之间。

整块玉米地的面积是:

则整块玉米地的总产量的区间范围是:

1817.54斤至20232.71斤之间,概率为95%。

有关标志排队等距抽样可以看作是一种特殊的类型抽样,只不过是分类更细,且在每一类中只抽一个样本单位。所以,其抽样平均误差的计算方法一般认为可以用类型抽样条件下的计算公式计算。即

平均数的抽样平均误差,类型抽样时为:

注意到等距抽样时,每组只抽一个单位,即ni=1,则:

式中,称为平均组内方差,是各组内方差的简单算术平均数。并且可以看出,等距抽样虽然不是重复抽样,但它实际上和重复抽样一样,不再区分重复抽样与不重复抽样两个计算公式。同理,成数的抽样平均误差计算公式为:

在实际计算时,总体中各等距分组的组内方差一般是未知的,但也无法用样本资料代替,因为一个组内只抽取一个样本单位。这时,我们可以用有关标志的各个等距分组的组内方差来近似地代替。

五、整群抽样

整群抽样是先将总体分为若干群,然后随机地抽选一些群,对抽到的样本群中的所有单位进行全面调查。若把一群看作是一个单位,则整群抽样就可以视为扩大了总体单位的简单随机抽样。把总体分为若干群,每一群中包括的单位数可以相等,也可以不相等。

下面讨论整群抽样的抽样平均误差。设把总体分成R群,随机地从中抽取r群组成样本。为了简便计算,我们假设各群中包括的单位数都相等,设都包括有M个单位。由此不难类推各群中包括的单位数不相等的情况。

设第i(i=1,2……R)群中第j(j=1,2……m)个单位的标志值为xij,则第i群的标志值xi可用其各单位的标志值的平均数表示,即

则总体所有群的平均数为:

平均数的群间方差

依照简单随机抽样的情形,整群抽样的平均数的抽样平均误差为:

在计算时,若总体群间方差未知,也可以用样本群间方差代替。

又,设第i群的成数为;总体成数为。因为已设各群中的总体单位都相等,为M,所以,。则成数的群间方差为:

成数的抽样平均误差为:

【例题7】某县统计局从全县1000个村中随机抽出100个村,调查各户的家禽饲养只数,得如下样本资料(见表),假设每村所包括的户数都相等,试以95.45%的概率估计全县平均每户饲养家禽的只数的区间范围。

整群抽样样本资料

表7-7

【分析与提示】

六、多阶段抽样

多阶段抽样是先把总体划分为若干群,再把每群分别又都划分为若干次群,再把每个次群都划分为更小的群,依次类推,直到总体单位。抽样时,第一阶段在总体中随机地抽取若干群,第二阶段在中选群中分别随机地抽取若干次群,依次类推,直到抽取样本单位。例如,某省统计局要调查该省农民的收入情况,先在全省100个县中随机地抽20个县,又在中选的每个县中都抽了3个乡,又在中选的各乡中都随机抽10户农户,则构成了一个容量为n=10×3×20=600户的样本,这是三阶段抽样。无论是大群、次群或更小的群,每群的大小可以相等,也可以不相等;每次从中选群中抽取下一阶段的群数(或单位数)可以相等,也可以不相等。下面我们以两阶段抽样为例,讨论其特点及有关计算方法。

就两阶段抽样而言,先将总体划分为R个群,而每群中包含Mi(i=1,2……R)个单位,则总体单位数N=M1+M2+……+MR。抽样时,第一阶段从R个群中随机地抽取r个群,第二阶段从中选的r个群中分别又随机地抽mi(i=1,2……r)个单位,构成一个容量为n=m1+m2+……mr的样本。两阶段抽样是类型抽样和整群抽样的结合,这三种组织方式都是首先把总体分成若干群(类、组),不同之处如下表所示(见表7-8):

几种抽样组织方式的比较

表7-8

为了简化计算,设每群中包含的单位数都相等,为M个;从各个选群中抽出的单位数也都相等,为m个。两阶段抽样是先从总体R个群中随机地抽取r个群,又从r个群中都分别随机地抽取m个单位,组成一个容量n=rm的样本。

设xij表示第i(i=1,2……r)个样本群中第j(j=1,2……m)个样一单位的标志值,则第i个样本群的样本平均数为:

全部样本平均数可由下式计算:

两阶段抽样的抽样平均方差(抽样平均误差的平方)由两项组成:一项是平均群内方差的,设:

为群间方差。则两阶段抽样的平均数的抽样平均误差μx为:

在实际计算时,若总体指标(如群内方差和群间方差)无法得到时,可用相应的样本指标代替。

【例题8】某县统计局在全县15个乡中随机抽取3个乡,若每乡各有1500农户,又在每个中选乡中随机抽取5户农户进行全年收入情况的调查,样本各阶段资料如下表,见表6-9:

表7-9          两阶段抽样的样本资料 

试以95%的概率估计全县农民年人均收入的区间。

【分析与提示】

各群内方差(由样本资料计算):

∴平均组内方差:

又,群间方差(由样本资料计算):

则,抽样平均误差(μx),在重复抽样时为:

在不重复抽样时为:

概率F(t)=95%时,概率度t=1.96,全县农民年人均收入的区间,重复抽样时为:

【例题9】(2010年)依据第二次经济普查结果,某地区有零售业个体户10万户,从业人员数30万人。现拟对该地区零售业个体户的经营情况开展抽样调查。为比较不同抽样方法的适用性,分别采用简单随机抽样、以从业人员数为分层标志的分层随机抽样和以普查小区为群单位的整群抽样,各抽取500户个体户、500户个体户和60个普查小区(内含500户个体户)进行调查,推算结果如下表:

抽样方法

该地区零售业个体户销售额

点估计值(亿元)

方差估计值(亿元2)

简单随机抽样

535

2982

分层随机抽样

542

765

整群抽样

524

6535

要求:

1.分别计算出在95%概率保证程度下三种抽样方法下零售业个体户销售额估计量的最大相对误差,哪种抽样方法下的估计量精度最高?(保留1位小数)

2.设计效应(Deff)的概念是什么?请计算分层随机抽样和整群抽样的设计效应。(保留3位小数)

3.从实际出发,对上述三种抽样方法的适用性进行简要评价。

【分析与提示】绝对误差:△=Z*S   概率保证度乘以标准差

相对误差: E=△/Y

 1、三个方差开根号后,分别为:54.6、 27.7、 80.8

简单随机抽样:E=1.96*54.6/535=0.2

分层随机抽样:E=1.96*27.7/542=0.3

整群抽样    :E=1.96*80.8/524=0.1

2、设计效应:定义为任意抽样方式下的抽样方差除以简单随机抽样方式下抽样方差的商。不同抽样方式下的设计效应分别为:

简单随机抽样的deff=1   分层随机抽样的deff<=1

整群随机抽样的deff>=   1机械随机抽样的deff≈1

分层抽样=765/2982=0.257

整群抽样=6535/2982=2.191

简单随机抽样、系统抽样、分层抽样的共同特点是在抽样过程中每一个个体被抽取的概率相等,体现了这些抽样方法的客观性和公平性.其中简单随机抽样是最简单和最基本的抽样方法,在进行系统抽样和分层抽样时都要用到简单随机抽样方法.当总体中的个体数较少时,常采用简单随机抽样;当总体中的个体数较多时,常采用系统抽样;当已知总体由差异明显的几部分组成时,而这一差异又恰好与研究的问题密切相关时,常采用分层抽样.

【例题10】在某地实施一项抽样调查,根据以往经验,预计空户率为5%,因拒访等原因造成的无回答率为15%。若要保证最终有效样本量能够达到200户,最少应抽取多少样本户?

【分析与提示】设要抽取X户,有5%的空户率,则能抽上的只有(1-5%),无回答率为15%,说明能回答的只有1-15%

X(1-5%)(1-15%)=200    X=247.2 取整=248

【例题11】(2012年)己知某企业职工的收入情况如下:

不同的收

入类型

职工人数

(Ni)

抽样人数

(ni)

年平均收入(元)

(x)

收入标准差(元)

(Si)

高收入

200

10

13200

480

一般收入

1600

80

8040

300

低收入

1200

60

6000

450

合计

3000

150

-

-

  根据上表资料计算:1、抽样年平均收入;2、年平均收入的抽样误差;3、概率为95%时,职工月平均收入的可能范围。

【分析与提示】

1、抽样年平均收入×

职工月平均收入=(元)

2、年平均收入的抽样误差;

抽样误差

概率为95%时,职工月平均收入的可能范围:

抽样极限误差=0.6827×29.60=20.21(元)。

下限值=630.67-20.21=610.46(元)

上限值=630.67+20.21=650.88(元)

职工月平均收入的可能范围: (610.46元--650.88元)。

       
高级统计师选课中心  
培训课程
名师试听
热销套餐
课程名称
试听
价格
报名
高级统计实务教程(有视频无纸质)
98元
历年考试真题含解析无纸质
48元
统计时政热点及备考资料无纸质
98元
高级统计押题密卷含热点(纸质)
158元
高级统计网授班(含题库班全套资料有视频)有纸质
339元
题库班+押题(有纸质)
298元
网授班+押题(有纸质)
439元
网页左侧浮动jquery在线QQ客服代码
  • 客服金老师