例如:有3个分布,各含有5个数值,其内容如下:
3个分布的集中趋势都相同,都等于80。但是,每个分布各项目对中央趋势的离散有所不同。甲分布中,五个数值都相等,并无离势;乙分配中,各个数值,稍呈分离;丙分布中,则各数值的分散很大,对集中趋势偏散程度最大。
那么,什么是离散程度呢?
反映数据对于集中趋势的偏离程度的统计量就叫做离散程度统计量。
换言之,离散程度表示一组数值的差异情况或离散程度,测量的是分配的离中趋势。集中趋势的代表性如何,要由离散程度来表明。凡离散程度越大,集中趋势的代表性越小(如丙);离散程度越小,则集中趋势的代表性越大(如乙)。假如一组数据彼此相同,离散程度为0,集中趋势即该数值本身(如甲)。
因此,这种离散程度就是与集中趋势有关的衡量分散程度的度量值。
离散程度是指现象的某一数量标志的各项数值距离它的代表值的差异程度。它是反映总体标志数值分布特征的又一个重要特征。集中趋势统计量将总体各单位标志数值的差异抽象化了,从而反映出社会现象在一定条件下的一般水平。但是,同质总体中各单位标志数值之间的差异还是客观存在的,而且这种差异在有些问题的研究中非常重要。因此,统计分析在运用集中趋势法分析某一问题时,还必须进一步对被抽象化的各单位标志值的差异程度进行测定。这样,集中趋势和离散程度统计量分别反映同一总体在数量上的共性(集中范围和程度)与差异性(波动范围和差异程度),两者结合运用,有助于人们更全面地认识总体的分布特征。
1.定位层次:并众比率,可用犞R表示
异众比率是总体中非众数次数与总体全部次数之比。它虽也是一个相对指标,但与标准差系数不同,它不是由以绝对数形式表现的离散程度指标与其对应的平均指标众数所作的对比,事实上也没有与众数相配套的绝对数形式表现的标志变异指标。异众比率的计算公式为:
异众比率的意义在于指出众数所不能代表的那一部分调查单位数在总体中的比重。异众比率愈小,说明众数的次数愈接近总体次数,标志变异的程度愈小,众数的代表性愈大;异众比率愈大,说明众数的次数愈小,标志变异的程度愈大,众数的代表性愈小。
异众比率计算简单,只涉及众数次数和总体全体单位数,因而,它能用于其他离散程度统计指标均无法测定的定类尺度的测量。
2.定序层次:四分位差,可用Q表示
四分位差的公式:Q=Q3-Q1。
其意义是,舍弃资料的最大与最小的1/4,仅就中央部分的资料测其极差。
为什么要舍弃前后四分之一,留下中间的50%呢?为了避免受极端极值的影响。极端数往往出现在资料的两端,因而舍弃两端,来看50%的资料之差异。
再从位置求出位值。
例如:某电视台举行中学生智力竞赛,如有两个中学参加,甲中学有8人参加,乙中学有9人参加,共需回答10个问题。
这样的结果,它的含义是:离散数值越大,表明这一组数值对于集中趋势的分散越大,即越不集中;离散数值越小,则表明集中趋势分散越小。4对7相比4.75对7而言,相对比较集中。乙中学Q=4,说明乙中学的智力相对集中一点,智力水平比较平均;而甲中学Q=4.75,相对而言,比乙中学的智力水平要分散一点。
这说明甲中学8个人中有一半的人落在4.625-9.375区间内,而乙中学9个人中有50%的人落在5-9的区间内。也即说,乙中学的平均智力相对比较集中。
四分位差虽然克服了全距的缺点,不受极端值的影响,但它仅以两数之差为基准,损失资料太多,所以也是一个比较粗略的离散程度统计量,因而用途有限。一般当用中位数表示数据分布的集中趋势时,就用四位差表示离散程度。
3.定距层次:标准差用σ表示
对于定距、定比变量,我们可用标准差的测量法。
什么叫标准差?一群数值与其平均数之差的平方和除以全部个案数目所得的平方根,就是标准差。
标准差通常用一个小写希腊字母σ来表示。
例如:有10个家庭每个月比前两年增加开支的情况是:
①先计算10个家庭平均每月增加支出多少?
用集中趋势表示X=ΣX/n=41元。
②对这10个家庭讲,对这个平均值(41元)的偏差程度如何?往往用标准差表示。
这表示,这10个人家,每个月增长消费支出的标准差是19.5。
假如有另10户人家,其标准差是7.8,在这种情况下,19.5>7.8。这说明前10户人家支出的分布比较分散,有的用得多了很多,节省的人家十分节俭。而后10户人家则支出比较平均。
因此,标准差越大,表示分布越分散;而标准差越小,表示分布越集中。
第四节双变量统计分析
一、相关的意义及类型
1.什么是相关
简单地讲,所谓相关,就是指二列变量之间的相互关系。
社会现象是普遍联系和相互依存的。从数量上研究社会现象之间的依存关系,反映出各种条件或原因对现象变化的作用,对社会研究具有重要的意义。
例如:我们考察人的生理特征,个子的高低与体重的关系,要找出一个关系式来表示他们之间的相互关系。又如,农业生产上施肥量与农产量存在什么关系,降雨量的多少对农作物的产量有什么影响。在社会学中,我们研究父亲工资高低对子女的社会地位有什么影响。在教育心理学中,一个学生在中学时代的成绩与他大学里的成绩有什么关系,在大学里的成绩对他以后创造性研究又有什么关系。又如课程的设置与教育质量存在什么内在联系。以至有多种因素,例如一个人的知识高低与聪明、用功、父母教育、年龄、书籍多少是种什么关系(如下图所示)。
其中,哪个因素有影响,哪个因素不存在影响。把每一对抽出来,也就是变成两个变量的关系。
总之,我们要找出量与量的关系,即X,Y之间的关系。
但是,单讲相关是两列变量之间的相互关系,还不能刻画相关的本质含义。
变量之间的关系,现象之间的关系,存在着两种不同类型。
(1)函数关系,也即确定性关系。当一种现象(一个数值)的数量确定之后,另一种现象(另一个数值)也随之完全确定。如,圆的面积和它的半径之间的关系,又如自由落体运动中高度与动力加速度之间的关系等。这种变量关系我们称之为函数关系,研究这类关系是用数学分析的方法。
(2)相关关系。这种现象的变量关系并不是完全确定的。一个现象的数量确定了,而另一现象的变量还可能在一定范围内存在变化,并不随之完全确定。
例如,施肥和农作物产量的关系,农作物产量除了施肥多少的因素以外,还受土壤、种子、气候、耕作深度等好多其他因素的影响。又如儿子的身高,除了其父母身高的因素以外,还受营养、活动、环境等好多因素的影响。青少年犯罪除了家庭影响以外,还受社会交友、个人经历、生理心理等好多因素的作用。也即是说,在社会生活中,现象之间的依存关系,除了我们关心的因素之外,同时还会受着其他许多因素的影响,其中错综复杂的关系有些属于人们尚未认识的,有些虽已被认识但还无法控制的,再加上在计量上的误差,就造成了这些现象之间的变量关系的不确定性。但是不确定的变量关系还是有规律可循的,经过人们的大量观察,会发现许多现象变量之间确实存在着某种规律性。在这种情况下,我们在社会研究中,就应多观察些单位,消除无关因素的影响,以便研究现象因素之间的关系。我们就称这类现象因素之间的关系为相关关系,而研究这类相关关系的理论和方法,就是相关分析。
具体说,统计相关分析就是要:①确定现象的变量之间是否存在相关关系,并且找出合适的数学表达式;②测定现象之间相关的密切程度;③研究相关关系中哪些是主要因素,哪些是次要因素,这些因素之间的关系又如何。
以上就是我们所讲的相关之含义。
2.相关与回归
有时候这种通过一批观察数据来找出变量间的相互关系的方法,又叫“回归问题”。相关和回归的关系是怎样的呢?
这里有历史上的原因。“回归”这个名词原是由法兰西斯·高尔登(F.Galton)所始创的。1885年时,高尔登从事人类身高的研究(即研究父母的平均身高与子女身高的关系)。他发现子女的身高有低于其高个子父母的趋势,而矮个子父母的子女却往往有高于其父母的趋势。从整个人口看来,高个子的人“回归”于人口的平均身高,而矮个子的人则作相反的“回归”。不是高的更高,矮的更矮,而是向当中平均值的趋势发展。高尔登所创用的“回归”这个名词以后就为许多生物学家和统计学家所沿用。
从辩证法来看,回归具有否定的意味,子女比其父母较高是对矮个子的否定,而子女较其高个子父母为矮也是一种否定。
当然,后来“回归”这一词一般用来表明一种现象(一种变量)和另一种现象(变量)之间的关系,已经不是高尔登所创用时的原来意义了。
相关这个名词就是从“回归”推导出来的概念,表示事物间的内在联系和相互依存的关系。其义已包含了“回归”的含义。
在分析现象与现象之间的关系时,我们经常要分析其因果关系。那么,相关关系是否就是因果关系呢?我们的结论是:相关关系≠因果关系。
在一般的函数关系中,尤其是一些简单的自然现象分析中,我们可以指出其因果,而且因果关系是可以倒置的,即变量之间通常是互为因果,自变量和因变量可以相互调换,存在着互为反函数的关系。
在相关关系中,虽然在教学形式上也可以将自变量和因变量互相调换,但在实际工作中这种调换往往会失去实际意义。相关关系不一定是因果关系,例如天气冷了,气温降低导致人们多穿衣服,气温降低是自变量,多穿衣服是因变量,但绝不能把因果互换,讲因为多穿了衣服而导致天气变冷。可见相关关系≠因果关系。这是一方面的意义。
我们还可以从另一个意义上讲,相关关系≠因果关系。如植物的生长与大学生入学分数线的确定,我们可以求出他们之间的相关系数,进行回归分析,但其中并无因果关系。因而,相关分析必须根据所研究对象确实存在着的客观联系关系,决不能凭主观臆造某种联系(如国外有人研究太阳黑子与地球上的战争之间的相关系数)。同时,也要注意不要把无关的因素引进来。当然相关关系也可能是因果关系,这需要进一步分析。
以上所讲的实际上也是我们在进行相关分析时应注意的几个问题。
下面介绍相关的种类。
3.相关的种类
现象的相关关系可以按不同的标志加以区分。
(1)按相关的程度分完全相关、不完全相关和不相关。两个现象其中一个现象的数量变化由另一个现象的数量变化所确定,则称这两种现象间的关系为完全相关,例如圆的面积A决定于它的半径R,即A=πR。在这种情况下,相关关系即成为函数关系,也可以说函数关系是相关关系的一个特例。两个现象彼此互不影响,其数量变化各自独立,称为不相关现象,如棉花纤维的强度与工人出勤率一般认为是不相关的。两个现象之间的关系,介乎完全相关和不相关之间称为不完全相关,一般的相关现象都是指这种不完全相关,这是统计相关分析的主要研究对象。
(2)按相关的性质分正相关和负相关。两个相关现象,当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。例如,工人的工资随着产量的增加而增加。当一个现象的数量由小变大,而另一个现象的数量相反的由大变小,这种相关称为负相关。例如,商品流转的规模越大,而流通费用水平则越低。
(3)按相关的形式分线性相关和非线性相关。对于两个相关现象进行实际调查,获得反映这个变量相关关系的一系列数据。一种现象的一个数值和另一现象的相应数值,在平面直角坐标系中确定一个点,如果这些点的分布情况大致散布在一直线的附近两旁,则这两种现象构成线性相关的形式。如果现象相关点的分布,并不表现为直线的关系,而近似于某种曲线方程的关系,则这种相关关系称为非线性相关。例如,小麦的播种量和亩产量之间的相关关系就是一种非线性相关。
(4)按影响因素的多少分单相关和复相关。两个现象的相关,即一个因变量对于自变量的相关关系,称为单相关,又称简相关。当所研究的现象是几个变量的相关,即一个因变量对于两个或两个以上自变量的相关关系,称为复相关,又称多元相关。在实际工作中,如果存在多个自变量,可以抓住其中最主要的因素,研究其相关关系和复相关化成为单相关的问题。
二、交互分类法
所谓交互分类法,就是同时依据两个变量的值,将所研究的个案分类。交互分类表就是将两个变量各标志次数分配进行交互分类的统计表。例如,我们研究教育水平与最大志愿的关系。
从表102中,可以清楚地知道在每种教育条件下志愿的次数分布情况。
因此,这样的表又称为条件次数表。在表的最下端是每种教育水平的总次数,称为边缘次数,它们的分布情况就称为边缘分布。表中的其他次数,称为条件次数,表示在自变量的每个值(条件)的情况下依变量的各个值的个案数目(次数)。