一、分配数列的概念与种类
将总体按某一标志进行分组,并按一定顺序排列出每组的总体单位数,所得到的数列称为分配数列,又称次数分配或次数分布。在分配数列中,分布在各组的总体单位数叫做次数,又称频数。各组次数与总次数之比称为比率,又称频率。由此可见,分配数列有两个组成要素:一个是分组,另一个是次数或频率。分配数列是统计整理的结果,是进行统计描述和统计分析的重要方法。它可以表明总体分布特征及内部结构情况,并可据此研究总体单位某一标志的平均水平及其变动的规律性。分配数列根据分组标志的性质不同,可以分为品质数列和变量数列。
(一)品质数列
它是按品质标志分组形成的用来观察总体单位中不同属性的单位分布情况的数列。例如,我国2000年第五次人口普查中,人口按民族、性别、籍贯等分组所形成的数列都属于品质数列。
品质数列的编制比较简单,但要注意在分组时,应包括分组标志的所有表现,不能有遗漏,各种表现要互相独立,不得相融。
(二)变量数列
它是按数量标志分组形成的用来观察总体中不同变量值在各组的分布情况的数列。变量分为离散型变量和连续型变量。对这两类变量,在编制变量数列时,其方法是不相同的:对于连续型变量一般只能按组距式分组,即以变量值的一定变动范围为一组,编制组距式变量数列;对于离散型变量一般按单项式分组,即将每个变量值作为一组,编制单项式变量数列(简称单项数列,参见)。但在实际应用时,如果连续型变量的变量值数目不多,数值变动幅度不大,就可以编制单项式变量数列;如果离散型变量的变量值数目很多,又无法一一列举,就可以编制组距式变量数列。
在组距式变量数列中,需要明确以下各要素:
1.组限。组距式变量数列中,各组的界限称为组限。组限分为上限和下限。下限是每组最小的标志值,上限是每组最大的标志值。如果各组的组限都齐全,称为闭口组;组限不齐全,即最小组缺下限或最大组缺上限,称为开口组。
(1)划分连续型变量组限时,采用“重叠分组”和“上限不在内”原则,每组变量值都以下限为起点,上限为极限,但不包括上限。
(2)划分离散型变量组限时,相邻组的上下限应当间断,但在实际中为求简便也可采用“重叠分组”。此外,当变量出现极大值或极小值时,可采用开口组,即用××以下或××以上表示。
2.组距。每组下限与上限之间的距离称为组距。即
组距上限-下限
组距式变量数列,有等距和不等距两种。等距变量数列,是指各组的组距都相等。适用于现象变动比较均匀的情况,如收入水平分组、单位面积农产品产量分组等。但在现象变动不均匀或是为了特定的研究目的时,常常采用不等距分组,编制不等距变量数列,如人口的年龄分组常采用不等距分组。不等距变量数列中,可以用次数密度来反映各组实际次数的分布情况。
3.组中值。每组下限与上限之间的中点数值称为组中值。
组中值
开口组的组中值计算公式为
缺下限组的组中值该组上限-
缺上限组的组中值该组下限+
组距式分组掩盖了各组标志值的分布情况,为了反映各组标志值的一般水平,通常用组中值作为各组的代表值。利用组中值的前提是:假定各组变量值的分布是均匀的或对称的。但在实际工作中大多数资料并非如此,因此,组中值作为各组的代表值只是一个近似值。
二、变量数列的编制
(一)单项式变量数列的编制
【例3】某生产车间50名工人日加工零件数(单位:个)如下:
试编制单项式变量数列。
首先,将总体各单位标志值由小到大排列:
其次,以总体各单位标志值为各组标志值,以总体各单位标志值出现的次数为各组次数,编制单项式变量数列。
通过所给资料我们编制了单项式变量数列,但却很难看出50名工人日加工零件数的分布特点。因为该资料中,变量值不但多达27个,而且变量值107~139的变动范围也比较大,即使能一一列举,也不适宜编制单项式变量数列。如果编制成组距式变量数列,又会是什么结果呢?
(二)组距式变量数列的编制
【例4】应用【例3】资料数据,试编制组距式变量数列,并计算频数、频率和组中值。
第一步,计算全距。
将总体各单位标志值由小到大排列,找出最大标志值与最小标志值,二者之差就是全距。上例中全距139-10732(件)。
第二步,确定组数和组距。
在同一变量数列中,组数与组距相互制约,组距大,组数就少;组距小,组数就多。组数与组距的确定,应力求符合现象的实际情况,充分体现总体分布的特征。二者谁先被确定,应视具体情况全面考虑。如果先确定组距,除考虑上述要求外,还要充分考虑原始资料分配的集中程度或集中趋势,以及组内的同质性、组间的差异性。一般来讲,组数确定为5~7为宜。
上例中,组距为5件,相应的组数为7组。
第三步,确定组限。
确定组限要考虑以下几点:
1.最小组的下限(起点值)可以略低于最小变量值,最大组的上限(终点值)可以略高于最大变量值;
2.如果组距是5,10……,100,则每组的下限最好是它的倍数;
3.组限的具体表示方法,应视变量的性质而定。
第四步,计算各组频数、频率和组中值。
从组距式变量数列中可以看出,50名工人日加工零件数主要集中在115~129件,占64%。在某一变量数列中标志值构成的数列表示标志值的变动幅度,而频数构成的数列则表示相应标志值的作用程度。频数愈大则相应组的标志值对全体标志水平所起的作用也愈大;反之,则相应组的标志值所起的作用愈小。因此,在整理和分析的时候,我们不但要注意各组标志值的变动范围,而且,也要注意各组标志值的作用大小,即频数的大小。将各组单位数和总体单位数相比,既可以表明各组标志值出现的频率的大小,也可以表明各组标志值对总体的相对作用程度。
按顺序列出各组标志值的范围(或以各组组中值来代表)和相应的频率形成的次数分布,又称统计分布。任何一个统计分布都必然满足:各组的频率大于0,各组的频率总和等于1(或100%)。
统计分布是统计描述的一种重要方法,在自然界和社会现象中,有许多统计分布是属于正态分布的。例如,人的体重、身高、单位土地面积的农产品产量等,这类分布以标志变量的平均值为中心,沿着对称轴向两边发展,愈接近中心,分配的频率愈高,愈远离中心,分配的频率愈低,形成“两头小,中间大”的分布曲线。
还有一种社会现象的分布和正态分布相反,是沿“两头大,中间小”的形式发展,呈“U”字形分布。如人口的死亡率,按年龄分布如下:0~4岁,特别是未满1岁的婴儿,死亡率最高,从5岁起死亡率逐渐下降,至10~14岁时,达到最低水平,从15岁起又缓慢上升,50岁以后上升显著增快,到60岁以后又达到最高水平。
(三)累计频数和累计频率的计算
在研究次数分布的时候,我们常常还需要编制累计频数数列和累计频率数列。其方法通常是首先列出各组的组限,然后依次累计计算到本组为止的各组频数,求得累计频数。将累计频数除以频数总和即为累计频率。
【例5】以【例4】资料为例,试计算累计频数与累计频率,计算结果见。
累计频数和累计频率的意义是很明显的。“向上累计”栏是将各组频数和频率从变量值低的组向变量值高的组累计,故称为向上累计,各组累计数的意义是各组上限以下的累计频数或累计频率。当我们所关心的是标志值比较低的现象的次数分布情况时,通常采用向上累计,以表明在这些数值以下的所有数值所占的比重。例如,日加工零件数在109件以下的有3人,占总数的6%;第二组资料说明日加工零件数在114件以下的有8人,占总数的16%。有时为表示在一定标志值以上的累计频数和累计频率,则要从变量值高的组向变量值低的组累计,来求得累计频数和累计频率,称为向下累计“向下累计”栏,各组累计数的意义是各组下限以上的累计频数或累计频率。当我们所关心的是标志值比较高的现象的次数分布情况时,通常采用向下累计,以表明在这些数值以上的所有数值所占的比重。例如,日加工零件数在125件以上的有20人,占总数的40%,第三组资料表示日加工零件数在115件以上的有42人,占总数的84%。
由此可见,累计频数和累计频率可以更简便地概括总体各单位的分布特征。