一、平均指标的意义
(一)平均指标的概念
平均指标又称平均数,是同类社会经济现象在一定时间、地点条件下,总体内各单位数量差异抽象化的代表性指标,是反映总体单位数量特征的一般水平的综合指标。平均指标能够反映总体内部的一般分布特征。这种特征表现为:一般距离其平均值远的标志值比较少,而距离其平均值近的或接近其平均值的标志值比较多,所以,平均指标反映了总体分布的集中趋势或一般水平。
例如,某班有20名学生,统计基础期末考试成绩。
从,喜忧各异。表中的每个分数分别代表了学生们各自的水平,使得构成该研究总体的个体之间存在着明显的差异,统计研究的目的就在于通过这些差异反映出总体的基本特征。为此,需要找出一个能够代表所有学生一般成绩的代表性数值,它应该能够将20名学生成绩之间的数量差异抽象化,这个抽象化的指标即为平均成绩。
再如,要研究一个企业工人的工资情况。企业中每个工人的工资是不同的,彼此之间存在着差异,我们不能以其中任意一个工人的工资来代表整个企业工人工资的水平,而应该用工人的平均工资来代表。
平均指标具有三个显著特点:
第一,它是一个代表值,可以代表总体的一般水平;
第二,它将总体单位之间的数量差异抽象化了;
第三,它反映了总体分布的集中趋势。
(二)平均指标的作用
由于平均指标能够综合反映某种社会经济现象总体在一定条件下的一般水平,所以应用很广,其作用主要表现在以下几个方面:
1.利用平均指标,可以概括说明总体的一般水平。平均指标是把一个总体内各单位的数量差异抽象化,用一个指标数值说明总体的一般水平。例如,用某市职工年平均工资8000元来反映该市职工的收入水平,就具有高度的综合性和概括能力,给人以鲜明、深刻的印象。
2.利用平均指标,可以对同一现象不同空间进行对比分析。对于不同国家、不同地区、不同单位的同类现象的水平,由于总体范围的大小可能不同,通常不能直接进行对比,只有通过计算平均指标才能将不可比的现象变为可比,从而反映出现象之间在空间上的差异。
【例8】2008年我国两大城市的国际旅游外汇收入和国际旅游业从业人员情-6,试比较分析哪座城市国际旅游业发展更具优势。
从总量指标“国际旅游外汇收入”和“国际旅游业从业人数”上来看,甲城市均高于乙城市,但是如果从“人均创外汇”这一平均指标来看,则乙城市要高于甲城市0.310万美元/人。这个结果表明,乙城市创外汇能力和效果均优于甲城市。这个结论,只有通过平均指标的空间对比才能获得。
3.利用平均指标,可以对同一现象进行不同时间的对比。事物总是在不断发展变化的,利用平均指标,可以研究某一总体在时间上的变化,反映总体发展的过程及其发展变化的趋势。例如,为反映改革开放30年来,我国城镇居民生活水平的提高程度,可以通过这30年间职工平均工资在不同时间上的发展趋势或变动规律来揭示;同时还可以通过将现在职工的平均工资水平与改革开放前的工资水平进行对比,从中显示出此间工资水平的差异。
4.利用平均指标,可以分析现象之间的依存关系。在对现象总体进行分组的基础上,运用平均指标可以分析现象之间的依存关系。例如,在对企业按车间或班组进行分组的基础上,可以通过计算各组的平均工资水平和各组的平均劳动生产率,来反映平均劳动生产率与平均工资水平之间的依存关系。
5.利用平均指标,可以进行数量上的估算。对社会经济现象的总量指标进行数量估算时,可采用科学的方法,利用由某一标志值计算出的平均指标来估算未知总体的平均指标或者估算总体的标志总量。例如,已知某市某区牛奶的人均消费量,可以估算全市牛奶的人均消费量,也可以估算本地区牛奶的消费总量。
(三)平均指标的分类
1.静态平均数与动态平均数
根据平均指标反映内容的不同,可以把平均数分为静态平均数和动态平均数。凡反映同一时间范围内总体各单位某一数量标志一般水平的平均数称为静态平均数;凡反映不同时间而同一空间范围内总体某一指标一般水平的平均数称为动态平均数。本章只介绍静态平均数,又称一般平均数。
2.数值平均数与位置平均数
根据平均指标计算方法的不同,可以把平均数分为数值平均数和位置平均数。凡根据总体各单位标志值计算的平均数,称为数值平均数,主要有算术平均数、调和平均数和几何平均数等;凡根据总体各单位标志值在变量数列中的位置计算的平均数,称为位置平均数,主要有众数和中位数等。
二、平均指标的计算与分析
(一)算术平均数
算术平均数是分析社会经济现象一般水平和典型特征的最基本、最常用的一种平均指标。其基本定义为:总体标志总量与总体单位总量之比。
例如,某企业某月职工工资总额为180000元,职工总人数为200人,则该企业该月职工的平均工资为900(元/人)。
需要说明的是算术平均数基本公式中的分子(总体标志总量)与分母(总体单位总量)的口径必须保持一致,也就是说各标志值与各单位之间必须具有一一对应的关系,属于同一总体,否则就不具备计算算术平均数的条件。因为只有在二者完全对应的情况下,通过对比才能反映出所研究现象的一般水平。这一点也正是算术平均数与强度相对指标的重要区别。
计算算术平均数时,根据所掌握资料的不同,可分为简单算术平均数和加权算术平均数两种形式。
1.简单算术平均数
在掌握了总体各单位标志值及单位总量资料时,可直接利用上述公式计算算术平均数。
【例9】参见,计算该班20名学生统计基础期末考试的平均成绩:
平均成绩
78.6(分)
即该班统计基础的平均成绩为78.6分,它代表了这个班级统计基础考式为
式中――算术平均数;
x――总体标志总量;
x――各单位标志值;
n――总体单位总量。
简单算术平均数计算方法简便,但其应用的前提条件是:变量数列中各个变量值出现的次数相同。
2.加权算术平均数
当变量值已经分组,且各组变量值出现的次数不同时,就必须计算加权算术平均数。
【例10】某商场食品部有16名职工,按日销售额分组,得到的变量数列资料。试计算职工平均日销售额。
根据,计算平均日销售额如下:
平均日销售额
2800(元/人)
在该平均数的计算中,不仅涉及变量值x,还涉及另一个反映变量值出现次数的量,用“f”表示。
式中f――各变量值出现的次数。
该计算公式表明,平均数的大小,不仅取决于总体各单位标志值的大小,而且还受到各单位标志值出现次数的影响。所以,式中的“f”在此起着“权衡轻重”的作用,故统计学中将其称为权数,将以上计算方法称为加权算术平均法。
【例11】某饭店职工人数及工资总额资料,计算该饭店职工的平均工资。
平均工资878.19(元/人)
计算加权算术平均数时需要注意:
(1)权数的引入。通过前面的计算不难发现,简单算术平均数的大小,只受一个因素即变量值本身大小的影响:当变量值的水平较高时,平均数就较大;反之,平均数就较小。加权算术平均数的大小,却要同时受两个因素的影响:一是变量值本身,二是各个变量值出现的次数。
(2)权数的性质。变量值出现的次数对加权算术平均数的大小起着权衡轻重的作用,平均数往往靠近次数最多的那个变量值。从【例10】中可以明显看出,权数大的变量值对平均数的影响就大,权数小的变量值对平均数的影响就小。
(3)权数的选择。在计算加权算术平均数时,必须慎重考虑权数的选择。选择权数的原则是:各组的变量值与其出现次数的乘积等于各组的标志总量,并具有实际经济意义。一般来说,在变量数列中,变量值出现的次数就是权数。但也有例外的情况,特别是用相对数或平均数计算加权算术平均数时,要特别注意。
(4)权数的实质。权数对算术平均数的影响,不是决定于权数本身数值的大小,而是决定于权数比重(或称为相对数权数)的大小。权数比重是指作为权数的各组单位数占总体单位数的比重,也叫权数系数。单位数所占比重大的组,其变量值对平均数的影响就大,反之影响就小。
与前面采用公式计算的结果完全一样。
简单算术平均数与加权算术平均数两者之间具有内在联系。加权算术平均数公式是算术平均数的代表公式,简单算术平均数公式只是加权算术平均数公式在各组权数都相等时的一个特例。
另外,如果掌握了组距式变量数列资料,也可以计算加权算术平均数。
【例13】将,并计算加权算术平均数。
由此可见,用组距式变量数列计算加权算术平均数时,是用各组的组中值来代替各组标志值的实际水平。2750,3250就分别代表了2000~2500,2500~3000,3000~3500各组日销售额的平均值。但是应用这种计算方法需要一个假定条件,即假定各单位标志值在各组内是均匀分布或对称分布的。实际上,各单位标志值在组内呈均匀分布或对称分布是不多见的,组中值同该组各单位标志值的平均值之间总会存在一定的误差,导致用组中值计算的加权算术平均数也会存在一定的误差。组距越小,组中值同该组各单位标志值的平均值就越接近,用组中值计算的加权算术平均数的误差也就越小;反之,误差就越大。
(二)调和平均数
调和平均数是各个标志值倒数的算术平均数的倒数,又称为倒数平均数。一般有简单调和平均数和加权调和平均数两种形式。
1.简单调和平均数
简单调和平均数是各个标志值倒数的简单算术平均数的倒数。在各标志值相应的标志总量均为一个单位的情况下求平均数时,应计算简单调和平均数。
H+++……+
式中H――调和平均数;
x――各单位标志值;
n――总体单位总量。
【例14】某商品在淡季、平季、旺季的价格分别是100元、116元、140元,假设分别以淡季、平季、旺季的价格购买金额相等的这种商品,求该商品的平均价格。
【例15】某食堂购进某种蔬菜,相关资料见,求这种蔬菜的平均价格。
由此可见,加权调和平均数与加权算术平均数,只是计算形式上的不同,其经济内容是一致的,都是反映总体标志总量与总体单位总量的比值。在计算平均数时,可以根据所掌握资料的不同,选择加权算术平均数或加权调和平均数。
下面通过实例来说明加权算术平均数和加权调和平均数两种方法的应用。
(1)由相对数计算平均数
以计划完成程度相对指标为例,当掌握的资料为实际完成数时,求平均计划完成程度,应以实际完成数作为权数,采用加权调和平均数来计算;当掌握的资料为计划任务数时,应以计划任务数作为权数,采用加权算术平均数来计算。
【例16】某饭店分一部、二部、三部,2008年计划收入分别为300万元、260万元、240万元,计划完成程度分别为102%、107%、109%,求平均计划完成程度。
由于掌握的资料是计划任务数,平均计划完成程度应采用以计划收入为权数的加权算术平均数来计算。
平均计划完成程度为
105.73%
如果掌握的资料是实际完成数,平均计划完成程度则要采用以实际收入为权数的加权调和平均数来计算。
平均计划完成程度为
H105.73%
(2)由平均数计算平均数
以工业企业生产工人劳动生产率为例,如果所掌握的资料是各车间的生产工人劳动生产率及其产值,则计算该企业的平均生产工人劳动生产率时应采用加权调和平均数;如果所掌握的资料是各车间的生产工人劳动生产率及其生产工人人数,则计算该企业的平均生产工人劳动生产率时应采用加权算术平均数。
【例17】现以2008年某工业部门的有关指标数值为例,确定采用加权调和平均数还是采用加权算术平均数来计算平均生产工人劳动生产率。资料见。
根据,可采用加权调和平均数来计算平均生产工人劳动生产率。
将,可得平均生产工人劳动生产率为
H5.52(万元/人)
(三)几何平均数
几何平均数就是n个变量值连乘积的n次方根。
根据掌握资料的差异,几何平均数分为简单几何平均数和加权几何平均数两种。
1.简单几何平均数
设有n个变量值x1,x2……,xn,由几何平均数定义可得出简单几何平均数的计算公式为
G
式中G――几何平均数;
∏――连乘符号。
【例18】某机械厂生产机器,设有毛坯、粗加工、精加工、装配四个连续作业的车间,各车间某批产品的合格率分别为96%、93%、95%、97%,求各车间制品平均合格率。
全厂产品的总合格率并不等于各车间制品的合格率总和,因为后续车间的合格率是在前一车间制品全部合格的基础上计算的,全厂产品的总合格率应等于各车间制品合格率的连乘积,所以不能采用算术平均数和调和平均数公式计算平均合格率,而应用几何平均法来求得。其计算如下:
车间制品平均合格率G95.24%
2.加权几何平均数
当计算几何平均数的每个变量值的次数不相同时,则应用加权几何平均法,其计算公式为
G
式中f――各组变量值的次数;
∑f――次数总和。
【例19】某笔为期20年的投资按复利计算收益,前10年的年利率为10%,中间5年的年利率为8%,最后5年的年利率为6%。则20年后的本利率为
(1+10%)10×(1+8%)5×(1+6%)55.1001
整个投资期间的年平均利率为
G-1-18.487%
几何平均数是计算平均比率或平均速度最适用的一种方法,这是因为几何平均数的数学性质与社会经济现象发展的平均比率或平均速度形成的客观过程相一致。凡是变量值的连乘积等于总比率或总速度的现象都适用于用几何平均法计算平均比率或平均速度。在实际应用中,几何平均数主要用于计算社会经济现象的年平均发展速度。
(四)众数
1.众数的概念
众数是指总体中出现次数最多的标志值。它是总体中最常遇到的标志值,是最普遍、最一般的标志值。用众数也可以表明社会经济现象的一般水平。
在实际工作中,众数的应用是比较广泛的。例如,要说明消费者需要的服装、鞋帽等的普遍尺码,反映集市、贸易市场某种蔬菜的价格等,都可以通过市场调查、分析,了解哪一尺码的成交量最大,哪一价格的成交量最多,人们的这种一般需求,即为众数。
2.众数的确定
确定众数,首先要将数据资料进行分组,编制变量数列;然后根据变量数列的不同种类采用不同的方法。主要包括根据单项式数列确定众数和根据组距式数列确定众数两种。这里重点介绍根据组距式数列确定众数的方法。
(1)根据单项式数列确定众数。在单项式数列的情况下,确定众数比较简单,只需通过观察找出次数出现最多的那个标志值即可。
(2)根据组距式数列确定众数。根据组距式数列确定众数,需采用插补法。一般步骤是:先确定众数组,然后计算众数的近似值。
【例20】,试确定众数。
从,家庭户数最多的是3200户,它所对应的人均月收入为600~700元。因此,600~700元这一人均月收入组就是众数组,它反映了人均月收入的一般水平。然后利用下限公式或上限公式计算众数的近似值。
下限公式:M0L+×i
上限公式:M0U-×i
式中M0――众数;
L――众数组的下限;
U――众数组的上限;
Δ1――众数组次数与前一组次数之差;
Δ2――众数组次数与后一组次数之差;
i――众数组的组距。
根据,将有关数字代入下限公式,得到众数的近似值:
M0600+×100653.85(元)
3.众数的特点及应用
众数具有以下几个特点:
第一,由于众数是根据变量值出现的次数确定的,不需要通过全部变量值来计算,因此它不受极端变量值的影响。
第二,在组距数列中,各组分布的次数受组距大小的影响,所以根据组距数列确定众数时,要保证各组组距相等。
第三,在一个次数分布中有几个众数,称为多重众数;有两个众数,称为双重众数。此时说明总体内存在不同性质的事物。
在确定众数时,需要满足以下两个前提:
(1)总体单位数较多。若总体单位数不多,虽然可以从中得到一个具有较大频率的数值,但其价值并不一定具有“最普遍值”的意义。
(2)次数分布具有明显的集中趋势。若数列中各个数据出现的频率都差不多,则所得到的“众数”缺乏代表性。
(五)中位数
1.中位数的概念
中位数是指将总体各单位标志值按大小顺序排列后,处于中间位置的那个标志值。由于它的位置居中,其数值不受极端数值的影响,也能表明总体各单位标志值的一般水平。
2.中位数的确定
根据所掌握资料的不同,中位数的确定方法有两种。即根据未分组资料确定中位数和根据分组资料确定中位数。
(1)根据未分组资料确定中位数。首先将掌握的资料,按标志值由大到小或由小到大的顺序进行排列,然后确定中位数所在的位置,与中位数所在位置相对应的标志值即为中位数。
中位数位置
式中n――标志值的个数。
如果标志值的项数是奇数,那么中间位置的那个标志值,就是中位数。如某学院会计专业某班有7名女生,她们的英语期末考试成绩按顺序排列如下:68、72、75、77、81、84、88,则中位数所在位置为第4[(7+1)/2]位,第4位所对应的标志值,即77就是中位数,它代表了这7名女生英语考试成绩的一般水平。
如果标志值的项数是偶数,那么处于中间位置左右两边的标志值的算术平均数,就是中位数。假如上述班级还有1名女进修生,她们的英语期末考试成绩按顺序排列为68、72、75、76、77、81、84、88,此时中位数位置为第4.5[(8+1)/2]位,则中位数为76.5[(76+77)/2],即第4位和第5位所对应的标志值的算术平均数。
(2)根据分组资料确定中位数。
①根据单项式数列确定中位数。首先要考虑标志值的分布情况,按一定方法计算累计次数。计算累计次数的方法有向上累计和向下累计两种。
【例21】~2008学年度30名学生获得奖学金情况资料,试确定中位数。
由:15
即中位数在第15人的位置上。无论是向上累计法还是向下累计法,所选择的累计人数数值都应是不小于15的最小数值。它们对应的都是第三组,即800元/人就是中位数。
②根据组距式数列确定中位数。根据组距式数列确定中位数相对比较复杂。
【例22】,试确定中位数。
确定中位数的基本步骤是:
第一步,确定中位数所在的组。
中位数位置15
由此可知,中位数在餐饮收入为15000万元~25000万元这一组里。
第二步,确定中位数的近似值。确定了中位数所在的组以后,可以采用比例插入法,求得中位数的近似值。这里需要假定餐饮收入在15000万元~25000万元的8个城市是均匀分布的。故可采用以下两个公式估算中位数的值:
下限公式:
MeL+-Sm-1
fm×i
上限公式:
MeU――Sm+1
fm×i
式中Me――中位数;
L――中位数组的下限;
U――中位数组的上限;
Sm-1――中位数组以前各组累计次数;
Sm+1――中位数组以后各组累计次数;
fm――中位数组的次数;
i――中位数组的组距;
f――总次数。
按下限公式可得中位数:Me15000+×1000017500(万元)
三、应用平均指标需注意的问题
(一)注意社会经济现象的同质性
同质性,就是指总体各单位在被平均的标志上具有同类性,这是应用平均指标的基本原则。如果各单位在类型上是不同的,特别是在社会生产关系上存在着根本差别,那么这样的平均数不仅不能反映事物的本质和内在规律性,而且还会歪曲事物本质,掩盖事实真相,即使算出平均数的数值,也只是“虚构的”、“不真实的”。例如,在研究农民收入水平的变化时,如果把长期在外打工和长期从事非农业生产劳动的农民,如从事工业、建筑业、商业的农民的收入与从事农业生产劳动的农民的收入合在一起来求“农民的收入”,则平均的结果不能真实地反映农民收入水平的变化,因为两者的收入无论是在构成上还是在使用的性质上,都存在着显著的差异。只有在同质总体的基础上计算和应用平均指标,才有真实的社会经济意义。
(二)注意用组平均数补充说明总平均数
平均指标反映了总体各单位某一数量标志值的一般水平,但却掩盖了各组之间的差异。总体各组之间及组内之间的差异往往影响总体的特征和分布规律,各组结构变动也会对总体变动产生影响。为了全面认识总体的特征和分布规律,需要将平均指标与统计分组结合起来,用组平均数补充说明总平均数。
【例23】,试评价2007~2008年该高校教师月工资水平。
计算加权算数平均数得,该高校教师2008年的总平均月工资收入为1952.74元,比2007年的总平均月工资收入1936.92元降低了15.81元。但实际上,从按职称分组的资料来看,无论是高职称还是低职称,2008年的工资收入都比2007年有所提高,即实际结果与总平均数相矛盾。之所以出现这种矛盾的结论,原因在于这两年各职称人数的结构发生了变化,2008年高职称、高收入人数所占的比重为27.35%,较2007年同职称的比重低22.22%;而2008年中、低职称人数所占比重则由50.43%上升为72.65%。正是由于这种权数结构的变化,导致出现两种平均数的矛盾结果。因此,将总平均数与组平均数结合起来进行分析,得出2008年的平均工资水平高于2007年的平均工资水平的正确评价。
(三)注意用分配数列补充说明总平均数
平均指标的重要特征是把总体各单位的数量差异抽象化,掩盖了各单位的数量差异及其分布情况。因此,需要用分配数列补充说明总平均数。
【例24】两个班组工人的日产量资料,见,试评价甲、乙两班组日产量水平。
根据,可得甲、乙两个班组工人的平均日产量相等,均为5件,但这两个班组的日产量分布却明显不同,甲班组日产量的整个分布偏低,乙班组日产量的整个分布偏高。甲班组日产量低于平均水平的占20%,而乙班组仅占10%。分布结构的不同,反映了事物内部的差异。这种差异单从总体平均数还不足以看清楚,必须结合对分配数列的分析和观察,才能有效地反映出来。