| 欢迎来到梦题库! 请登录 注册 今天是2026/3/3 |
![]() |
![]() |
12 | ||||
| 课程 | 题库 | 下载 | 答疑 |
五、统计分组的方法
(一)品质分组的方法
按品质标志分组是比较简单的方法,分组标志一经确定,组名称和组数也就确定,不存在组与组之间界限区分的困难。
(二)变量分组的方法
按变量分组是指按数量标志分组的方法。按数量标志分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质。因此,应该以什么数量标志作为划分标准,都要依据研究的任务和现象的性质来确定。在实际工作中,变量分组常常用来分析某种指标的变动及其在各组的分配情况,这时,被研究的统计指标就成为分组的标志。2016年高级统计师考试教材19.9元 高级统计师考试保过班338元、考试评审指导微信346401794(QQ同号)、高级统计师历年真题、大纲、报名时间、培训、高级统计师实务教程、考试电子书、考试题库、高级统计师案例分析
变量分组由于存在很多问题,所以要在以下几方面加以阐述。
1.单项式分组和组距式分组
前面说过,变量有离散型和连续型之分。离散型变量如果变量值变动幅度比较小,变量值的项数又很少,则可依次将每一个变量值作为一组,这种分组称为单项式分组。但是,离散型变量如果变量值变动很大,项数又很多,采用单项式分组势必分组数太多,各组没占几个单位,因此就失去了分组的意义。某些场合离散型变量不能作单项式分组。大多数的离散型变量采取组距式分组。
组距式分组就是把整个变量值依次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。
连续型变量由于不能一一列举它的变量值,不能作单项式分组,只能进行组距式分组。
按组距式分组会使资料的真实性受到一些损害。
总之,组距的大小、组数的确定应该全面分析资料所反映的社会经济内容、标志值的分散程度等因素,不能强求一致。
2.等距分组和异距分组
组距式分组区分等距分组和异距分组(不等距分组)是一个重要的问题。等距分组即标志值在各组保持相等的组距,就是说各标志值的变动都限于相同的范围。在标志值变动比较均匀的情况下,可采用等距分组。等距分组有很多好处,它便于各组单位数和标志值的直接比较,也便于计算各项综合指标,如标志值的平均数。当标志值变动很不均匀,如急剧地增长、下降,变动幅度很大时就应采用异距分组。
在异距分组中,如果标志值是按一定比例发展变化的,则可以按等比的组距间隔来分组。
总之,异距分组的组距和组数应根据研究现象本身质量关系的分析来确定,通过不相等的组距和组限来区分现象的类型和性质。
3.组限与组中值
组距两端的数值称为组限,其中每组的起点数值称为下限,每组的终点数值称为上限,下限和上限表示各组标志值变动的两端界限。
离散型变量可以一一列举,而且相邻两个数值之间没有中间数值。因此,各组的上下限都可以用确定的数值(整数)表示。
连续型变量在两数之间可能有无限多个中间数值,不可能一一列举,因此相邻组的上限和下限无法用两个确定的数值分别表示。在这种情况下,上一组的上限同时也是下一组的下限。
根据这个规定,离散型变量的分组也普遍使用各组的上限当作下一组的下限,这样不仅比较简明,而且计算组中值时不会造成麻烦。
组中值是上限与下限之间的中点数值。我们知道,经过了组距分组,各个单位具体标志值看不见了,不这样做,就难以对现象总体规律有深刻的认识。但是,在许多场合,仅仅大概地了解这些标志值变化的区间是不够的,我们还需要确定一个能代表各组标志值一般水平的数值,这个数值就是组中值,它在统计分析中应用很广泛。
组中值就是上限和下限的简单算术平均,即(上限+下限)÷2。有时候组距数列上下两端的组运用开放式的组距,即第一组用“多少以下”,最后一组用“多少以上”表示。这两个组的组中值可参照相邻组的组距来决定。
最后,组限的表述应尽量是10、50、100、1000等数字的整数倍。
分 配 数 列
一、分配数列的概念与种类
将总体中的所有单位按某个标志分组后,所形成的总体单位数在各组之间的分布,称为分配数列或次数分布。分配数列由两个要素组成,一个是分组,另一个是次数,又叫频数。
根据分组标志的不同,分配数列分为品质分配数列和变量分配数列。按品质标志分组所编制的分配数列叫品质分配数列,简称品质数列。按数量标志分组所编制的分配数列叫变量分配数列,简称变量数列。
变量数列又有单项式变量数列和组距式变量数列之分。用一个变量值代表一个组形成的数列,叫单项数列。用变量值变动的一定范围(组距)代表一个组形成的数列,叫组距数列,
二、变量数列的编制
1.整理数据资料,确定全距
对于一个杂乱无章的原始资料,把标志值按大小顺序排列后所计算的最大值与最小值之差就是全距。
2.确定变量数列的形式
确定变量数列的形式,也就是确定编制单项变量数列还是组距数列。
3.组数和组距的确定
对于组数和组距,先确定哪一个,不能机械地规定,应视具体情况而定。在编制等距数列的情况下,组数、组距和全距存在下列关系:
组数=全距+组距
为计算方便,组距宜取5或10的倍数,在确定组距时,必须考虑原始资料的分布状况和集中程度,注意组内的同质性,尤其是对带有根本性的质界限,更不能混淆,否则就失去了分组的意义。
4.确定组限
当组距组数确定后,只需划分各组数量界限,便可编制组距数列了。一般来讲,组限应是决定事物性质的数量界限,具体划分时应注意以下几点。
第一,组限的确定应当有利于表现各变量值实际分布的规律性。
第二,最小组下限要略低于最小变量值,最大组上限要略高于最大变量值。
第三,如果变量值相对集中,无特大或特小极端值时,则采用闭口式;反之,如果变量值相对比较分散,则采用开口式。
5.编制变量数列
确定上述要素以后,就可以把变量值归类排列,最后把各组单位数经综合后填入相应的各组次数栏中。
编制组距式数列时,该用多大组距,组数多少,可能一时难以确定,不妨先按小组距分组,然后逐步合并组距,再从比较中择优。美国学者斯特吉斯(H. A. Sturges)提出这样的分组组数公式:n=1+3.322lgN。N为总体单位数,n为应分组数。这是经验公式,可以参考,但不能生搬硬套。
三、频数与频率 在整理和分析的时候,不但要注意各组标志值的变动范围,而且也要注意各组标志值的作用大小,即频数的大小。在变量数列中标志值构成的数列表示标志值的变动幅度,而频数构成的数列则表示相应标志值的作用程度。频数越大,则组的标志值对于全体标志水平所起的作用也越大;反之,频数越小,则组的标志值所起的作用也越小。将各组单位数和总体单位数相比求得的频率表明各组标志值对总体的相对作用程度,也可以表明各组标志值出现的频率的大小。按顺序列出各组标志值的范围(或以各组组中值来代表)和相应的频率形成的统计分布,称为频率分布。很显然,任何一个分布都必须满足:①各组的频率大于0;②各组的频率总和等于1(或 100%)。 在研究频数和频率分布的时候,常常还需要编制累计频数数列和累计频率数列。其方法通常是先列出各组的组限,然后依次累计到本组为止的各组频数,求得累计频数。将累计频数除以频数总和即为累计频率。 将各组频数和频率由变量值低的组向变量值高的组累计,故称为向上累计或称为较小制累计;将各组频数和频率由变量值高的组向变量值低的组累计,故称为向下累计或称为较大制累计。向上累计各累计数表示各组上限以下的累计频数或累计频率。当我们所关心的是标志值比较小的现象的次数分配情况时,通常用次数向上累计,以表明在这些数值以下所有数值所占的比重。有时为表示在一定标志值以上的累计频数和累计频率,则会采用分组的下限,并从变量值高的最后一组的频率开始按相反的顺序向变量值低的组累计,来求得累计频数和累计频率,即向下累计。各累计数表示各组下限以上的累计频数或累计频率。当我们所关心的是标志值比较大的现象的次数分配情况时,通常用次数向下累计以表明在这些数值以上所有数值所占的比重。 按年销售额分组 /万元 营业员人数/人 向上累计次数/人 向下累计次数/人 500-600 600-700 700-800 800-900 900-1000 1000以上 24 48 105 60 37 26 24 72 177 237 274 300 300 276 228 123 63 26 合计 300 - -
五、统计分组的方法
(一)品质分组的方法
按品质标志分组是比较简单的方法,分组标志一经确定,组名称和组数也就确定,不存在组与组之间界限区分的困难。
(二)变量分组的方法
按变量分组是指按数量标志分组的方法。按数量标志分组的目的并不是单纯确定各组在数量上的差别,而是要通过数量上的变化来区分各组的不同类型和性质。因此,应该以什么数量标志作为划分标准,都要依据研究的任务和现象的性质来确定。在实际工作中,变量分组常常用来分析某种指标的变动及其在各组的分配情况,这时,被研究的统计指标就成为分组的标志。2016年高级统计师考试教材19.9元 高级统计师考试保过班338元、考试评审指导微信346401794(QQ同号)、高级统计师历年真题、大纲、报名时间、培训、高级统计师实务教程、考试电子书、考试题库、高级统计师案例分析
变量分组由于存在很多问题,所以要在以下几方面加以阐述。
1.单项式分组和组距式分组
前面说过,变量有离散型和连续型之分。离散型变量如果变量值变动幅度比较小,变量值的项数又很少,则可依次将每一个变量值作为一组,这种分组称为单项式分组。但是,离散型变量如果变量值变动很大,项数又很多,采用单项式分组势必分组数太多,各组没占几个单位,因此就失去了分组的意义。某些场合离散型变量不能作单项式分组。大多数的离散型变量采取组距式分组。
组距式分组就是把整个变量值依次划分为几个区间,各个变量值则按其大小确定所归并的区间,区间的距离称为组距,这样的分组称为组距式分组。
连续型变量由于不能一一列举它的变量值,不能作单项式分组,只能进行组距式分组。
按组距式分组会使资料的真实性受到一些损害。
总之,组距的大小、组数的确定应该全面分析资料所反映的社会经济内容、标志值的分散程度等因素,不能强求一致。
2.等距分组和异距分组
组距式分组区分等距分组和异距分组(不等距分组)是一个重要的问题。等距分组即标志值在各组保持相等的组距,就是说各标志值的变动都限于相同的范围。在标志值变动比较均匀的情况下,可采用等距分组。等距分组有很多好处,它便于各组单位数和标志值的直接比较,也便于计算各项综合指标,如标志值的平均数。当标志值变动很不均匀,如急剧地增长、下降,变动幅度很大时就应采用异距分组。
在异距分组中,如果标志值是按一定比例发展变化的,则可以按等比的组距间隔来分组。
总之,异距分组的组距和组数应根据研究现象本身质量关系的分析来确定,通过不相等的组距和组限来区分现象的类型和性质。
3.组限与组中值
组距两端的数值称为组限,其中每组的起点数值称为下限,每组的终点数值称为上限,下限和上限表示各组标志值变动的两端界限。
离散型变量可以一一列举,而且相邻两个数值之间没有中间数值。因此,各组的上下限都可以用确定的数值(整数)表示。
连续型变量在两数之间可能有无限多个中间数值,不可能一一列举,因此相邻组的上限和下限无法用两个确定的数值分别表示。在这种情况下,上一组的上限同时也是下一组的下限。
根据这个规定,离散型变量的分组也普遍使用各组的上限当作下一组的下限,这样不仅比较简明,而且计算组中值时不会造成麻烦。
组中值是上限与下限之间的中点数值。我们知道,经过了组距分组,各个单位具体标志值看不见了,不这样做,就难以对现象总体规律有深刻的认识。但是,在许多场合,仅仅大概地了解这些标志值变化的区间是不够的,我们还需要确定一个能代表各组标志值一般水平的数值,这个数值就是组中值,它在统计分析中应用很广泛。
组中值就是上限和下限的简单算术平均,即(上限+下限)÷2。有时候组距数列上下两端的组运用开放式的组距,即第一组用“多少以下”,最后一组用“多少以上”表示。这两个组的组中值可参照相邻组的组距来决定。
最后,组限的表述应尽量是10、50、100、1000等数字的整数倍。
分 配 数 列
一、分配数列的概念与种类
将总体中的所有单位按某个标志分组后,所形成的总体单位数在各组之间的分布,称为分配数列或次数分布。分配数列由两个要素组成,一个是分组,另一个是次数,又叫频数。
根据分组标志的不同,分配数列分为品质分配数列和变量分配数列。按品质标志分组所编制的分配数列叫品质分配数列,简称品质数列。按数量标志分组所编制的分配数列叫变量分配数列,简称变量数列。
变量数列又有单项式变量数列和组距式变量数列之分。用一个变量值代表一个组形成的数列,叫单项数列。用变量值变动的一定范围(组距)代表一个组形成的数列,叫组距数列,
二、变量数列的编制
1.整理数据资料,确定全距
对于一个杂乱无章的原始资料,把标志值按大小顺序排列后所计算的最大值与最小值之差就是全距。
2.确定变量数列的形式
确定变量数列的形式,也就是确定编制单项变量数列还是组距数列。
3.组数和组距的确定
对于组数和组距,先确定哪一个,不能机械地规定,应视具体情况而定。在编制等距数列的情况下,组数、组距和全距存在下列关系:
组数=全距+组距
为计算方便,组距宜取5或10的倍数,在确定组距时,必须考虑原始资料的分布状况和集中程度,注意组内的同质性,尤其是对带有根本性的质界限,更不能混淆,否则就失去了分组的意义。
4.确定组限
当组距组数确定后,只需划分各组数量界限,便可编制组距数列了。一般来讲,组限应是决定事物性质的数量界限,具体划分时应注意以下几点。
第一,组限的确定应当有利于表现各变量值实际分布的规律性。
第二,最小组下限要略低于最小变量值,最大组上限要略高于最大变量值。
第三,如果变量值相对集中,无特大或特小极端值时,则采用闭口式;反之,如果变量值相对比较分散,则采用开口式。
5.编制变量数列
确定上述要素以后,就可以把变量值归类排列,最后把各组单位数经综合后填入相应的各组次数栏中。
编制组距式数列时,该用多大组距,组数多少,可能一时难以确定,不妨先按小组距分组,然后逐步合并组距,再从比较中择优。美国学者斯特吉斯(H. A. Sturges)提出这样的分组组数公式:n=1+3.322lgN。N为总体单位数,n为应分组数。这是经验公式,可以参考,但不能生搬硬套。
三、频数与频率 在整理和分析的时候,不但要注意各组标志值的变动范围,而且也要注意各组标志值的作用大小,即频数的大小。在变量数列中标志值构成的数列表示标志值的变动幅度,而频数构成的数列则表示相应标志值的作用程度。频数越大,则组的标志值对于全体标志水平所起的作用也越大;反之,频数越小,则组的标志值所起的作用也越小。将各组单位数和总体单位数相比求得的频率表明各组标志值对总体的相对作用程度,也可以表明各组标志值出现的频率的大小。按顺序列出各组标志值的范围(或以各组组中值来代表)和相应的频率形成的统计分布,称为频率分布。很显然,任何一个分布都必须满足:①各组的频率大于0;②各组的频率总和等于1(或 100%)。 在研究频数和频率分布的时候,常常还需要编制累计频数数列和累计频率数列。其方法通常是先列出各组的组限,然后依次累计到本组为止的各组频数,求得累计频数。将累计频数除以频数总和即为累计频率。 将各组频数和频率由变量值低的组向变量值高的组累计,故称为向上累计或称为较小制累计;将各组频数和频率由变量值高的组向变量值低的组累计,故称为向下累计或称为较大制累计。向上累计各累计数表示各组上限以下的累计频数或累计频率。当我们所关心的是标志值比较小的现象的次数分配情况时,通常用次数向上累计,以表明在这些数值以下所有数值所占的比重。有时为表示在一定标志值以上的累计频数和累计频率,则会采用分组的下限,并从变量值高的最后一组的频率开始按相反的顺序向变量值低的组累计,来求得累计频数和累计频率,即向下累计。各累计数表示各组下限以上的累计频数或累计频率。当我们所关心的是标志值比较大的现象的次数分配情况时,通常用次数向下累计以表明在这些数值以上所有数值所占的比重。 按年销售额分组 /万元 营业员人数/人 向上累计次数/人 向下累计次数/人 500-600 600-700 700-800 800-900 900-1000 1000以上 24 48 105 60 37 26 24 72 177 237 274 300 300 276 228 123 63 26 合计 300 - -
![]() |
|
| 高级统计师选课中心 | |