我们仍以上表数据为例子。假设X的均值为12,则得到X′1=10-12=-2,X′3=12-12=0……假设Y的均值为10,则得到Y′1=6-10=-4,Y′3=7-10=-3……如下表所示。
教育年限(X)和以10元为单位的日收入(Y)。而且假定12个人的随机样本有下列资料:
(3)相关系数的解释
①事物的质与量的辩证关系对于相关计算的意义。在计算两个变量的相关系数之前,首先要考虑两个变量的质的联系,考察质变和量变的关系。换句话说,相关系数的计算,不单纯是量的问题,更重要的是质的问题。只有两个客观事物有质的联系才能对于它们的质所反映的量(或量的表现)进行相关系数的计算。应该认识到,事物的量是该事物一定质的量,离开一定质量,只是抽象的量,不代表任何事物。对于没有质的联系的事物进行相关系数的计算,将导致荒谬的论断。
②要充分注意样本n的大小。相关系数多大才算高相关,多大只是低相关或无相关。有人认为算出=0.70,=0.97就是高相关了,而算出=0.31,=0.28就是低相关。这些结论是轻率的。我们还必须注意到n的大小。相关系数的计算需要n的个数不能小于30,若小于30,可能出现失去意义的事。
从公式=ΣXY/nσ×σY可知,与n有不可忽略的关系。如计算结果,=0.31,其材料来源中n=105,则此相关系数不可忽略,但如果n=3,则计算的相关系数没有意义。
鉴于以上情况,只看相关系数的大小,而不视n的多少,说=0.7以上是高相关,0.30以下是低相关是片面的。
4.简单直线回归
(1)“回归”的概念
相关系数是测度X和Y两个变量之间相关程度的,但它不能告诉我们这种关系是什么(即这两个变量关系的形式如何)。为了从另一个变量的值预测一个变量的值,常常要求确定两变量的关系求出表示Y和X之间关系的方程。
回归的计算就是以一个变量为自变量,另一个变量为因变量,而测度其两个变量有关系的形式的过程。
可见,一个因变量随着一个自变量而变化,两个变量之间的关系可以用方程式表示出来,这样可以从自变量的值推算或估计与之相对应的因变量的值,这种推算式的求得称之为回归。直线回归是最简单的一种。
回归与相关的区别是:相关表示两变量间的相互关系,是双方向的,而回归只表示两变量随X而变化,关系是单方向的;相关是表示联系的程度,而回归则表达了联系的形式。
当然,回归和相关又是有关联的。当我们说X与Y的相关为0,就是说两者毫无关系。这时,知道了X(或Y)变量,就无法预测Y(或X)变量。相关越大,就越可以从其中一个变量较正确地预测另外一个变量。
(2)计算式根据数学推导(最小二乘法)所得的公式如下:
①b=0,r对就没有影响。b越大,r对的影响就越大。
②b=+,表示r增大,也增大,正向影响。
③b=-,表示r增大,却减少,负向影响。
这里我们利用10个学生的高中和大学成绩为例来进行回归计算。
假定有下列资料:
利用这个回归线方程,我们可以预测:
其他学生的大学成绩的期望值也都可以按这个计算出来,有的与实际成绩十分接近。
如:学生D的成绩(预测大学时)而D的实际大学成绩为3.2,就十分接近。
(3)关于根据回归线进行外测的问题我们可以根据回归方程进行预测,但一般只限于回归方程式计算范围之内,例如前例回归方程计算范围是从高中成绩2.2到4.0,在这样的范围内可以测3.0,2.5,3.5等,但不能超出2.2-4.0范围之外。在这个2.2-4.0范围内测算可以叫作内推,在范围之外的预测叫作外测。
由于客观事物的变化受各种条件的影响,事物的发展并不是单位数量的变化,因此,根据数量而预测事物的发展变化也只能在一定的限度之内进行。这就是说,只能做内推,而外测往往是值得考虑的。这也是哲学上度的问题。度是质与量的统一,质是有一定量的质,而量则是一定质的量。在作内推时,是在一定度之内的推测;在作外测时,则不一定在原来的度的范围内推测,很可能超出原来度的范围。
5.2测量法
相关比率可用于:自变量为定类或定序而依变量为定距的两变量之相关测量。
同时对于定距-定距变量是非直线关系,曲线关系的也可用这种方法。因而2测量法其用途是比较大的。
要注意的一点是,2的统计值,无正负之分,只告诉我们两者之相关。当然也具有消减误差比例的意义。
第五节多变量统计分析
社会现象之间的关系是纷繁复杂的,两个变量之间的关系可能受第三个变量的影响;一个变量能同时与多个变量相关,受多个变量的影响;多个变量之间可能相互关联,因此社会学研究除了首先进行单变量和双变量的统计分析以外,经常进行两个变量以上的多变量分析(multivariateanalysis)。
多变量分析主要分为三个部分:第一是详析分析,第二是多因分析,第三是多项相互分析。本节将选择一些基本内容作个简单介绍。
一、详析分析1.变量间的关系
统计调查的变量分析最早是由法国社会学家涂尔干运用到社会研究中来的。以后,经斯多弗、拉扎斯菲尔德、罗森伯格等人的发展与完善,形成了一套较系统的统计调查的资料分析模式——详细模式等等。
变量间的关系是多种多样的,有两个变量间的关系和多个变量间的关系。
在很多情况下,多个变量间的关系可以用数个两变量间的关系进行描述。因此,两变量间关系的研究是社会研究中最重要的内容之一。就两个变量而言,它们之间可能是有关系的,也可能是没有关系的。
两个从统计上看似无关或弱相关的变量,实际上可能的确无关;但是,也可能是有关联的,使两个变量真实关系不能表现出来通常是由于第三个变量的影响,它抑制、取消或削弱了这一真实关系。这种使变量间真实关系隐而不彰或减弱的变量叫做抑制变量。两变量之间这种统计上无关而实际上相关的情况称为虚假无关。而两个从统计上看具有相关关系的变量,它们之间的真实关系有下列三种可能的情况:(1)实际上无关;(2)实际上相关;(3)实际上具有因果关系。
统计相关的不同类型如下。
(1)统计相关而实际上无关
这种关系成为对称关系或虚假相关,即从统计上看有关系的两个变量实质上相互独立、互不影响,并无有意义的联系。对称关系用符号表示就是:
X-Y。
两变量对称关系的发生有时纯属巧合,例如某地区乌鸦的数目与小孩的出生数之间表现出某种关系,即乌鸦多的村子小孩出生数目也较高,乌鸦少的村子小孩出生数目也较少。乌鸦数目与小孩出生数目间的这种关系显然纯属巧合,两者间并无内在的联系。有时,两变量对称关系的产生是因为这两个变量是同一原因的结果。例如,我们发现家庭不稳定性与社会偏见同时增加,统计上也是相关的,但实质上两者都是社会流动增加的结果,彼此间并无影响。
(2)统计相关、实际也相关
两变量的这种关系称为相互关系。所谓相互关系是指统计上相关的两变量实质上也是有关系的,这种关系是一种交互影响的关系。在这种关系中,两个变量相互作用、相互加强。例如,投资与利润的关系:利润多的公司会增加其投资,而新的投资又增加了利润,这又造成再投资。这种关系用符号表示就是XY。
(3)实际的因果关系
因果关系是变量分析中所探讨的最重要的课题。社会研究中所说的因果关系是指在两个变量中,一个变量的变化伴有另一变量的变化,即一个变量影响另一变量,但反过来不成立。抽烟与肺癌的关系就是一个因果关系,抽烟可以导致肺癌,但反过来肺癌不会导致抽烟。
在因果关系中,能够影响其他变量发生变化的变量称为自变量;依赖于其他变量,但其本身不能影响其他变量的称为因变量,这也是通常我们希望解释说明的变量。因果关系用符号表示就是:X→Y。
判断因果关系中哪个比例为自变量,哪个为因变量的一般原则有两个:
①时间的先后。
②变量的不变性与可变性。在社会研究中常将一些具有固定性、持久性的变量作为自变量,如性别、年龄、民族等。还有一些重要的变量,它们只具有相对持久性,如社会地位、居住地及社会阶级等就属于这种类型的变量。这类变量比行为、态度等变量更为固定持久,因而往往被当作自变量。因此,在决定两个变量中哪个为自变量、哪个为因变量时,不变性只是一个相对的概念。
2.详析模式
(1)两变量的交互分类
两个变量在统计上相关与否与实际上是否存在内在的关系并不一定完全一致,对变量之间的关系和联系程度进行精确的因果分析,以判别关系的真伪、回答这种关系为什么会产生以及说明这种关系存在的条件。
(2)引入检验因素
检验两个变量间关系的最重要、最系统的办法是引入第三个变量。然后检查引入第三个变量后自变量与因变量原有关系的变化情况,由此澄清与深化对原有关系的认识,并揭示两变量的真实关系。这种引入第三变量对两变量关系进行检验,以解释或确定变量间关系的过程叫作分析的详析化,被引入的变量叫作检验因素或控制变量。
详析模式可以分为三种类型:因果分析、阐明分析和条件分析。因果分析的目标,是检定被看作自变量的r与被看作因变量的之间是否确实存在着因果关系。它通常是引进若干前置变量(第三变量),以判明r与之间的因果关系是否为虚假的,即两者的关系是否为前置变量影响的结果。香港中文大学李沛良教授曾列举了一个很有意义的因果分析的例子①。
假定我们研究住户的拥挤程度对夫妻间冲突的影响,调查得到下列资料,见表105。
我们不能简单地依据表105的结果就下结论说“住户的拥挤程度是导致夫妻冲突的原因”,因为或许还有其他的因素与这两个变量都相关且这两个变量同时受到其他变量的影响。比如,家庭的经济水平就可能是引起这两者的第三因素。因为家庭经济条件差,不仅会导致住房拥挤,还会导致家庭成员间的矛盾增多。为了判明住户拥挤程度与夫妻冲突之间关系的真假,就需要引进和控制家庭经济水平这一变量。我们将家庭经济水平分为高、中、低三组,在每一组中再来看原理两个变量之间的关系,假定此时得到表106的结果。
从表106的结果可知,在每个经济水平组内,住户的拥挤程度与夫妻冲突间的关系都非常微弱,且都没有达到0.05的显着度,可以说都没有关系。因此,我们可以下结论说:住户的拥挤程度与夫妻间冲突的因果关系是虚假的,这两个变量的相关实际上是由家庭经济水平的不同而导致的。
阐明分析的目标则是探讨因果关系的作用方式或作用途径。即当变量r与变量相关时,通过引进并控制第三变量,以判明自变量r是否“通过”第三变量而对因变量产生影响的。
条件分析所关注的则是原关系在不同条件下是否会有所不同。如果我们控制了第三变量,发现原理两个变量之间的关系在各种不同的条件下(即第三变量的各种不同取值中)依然存在,且大体相同,则表示变量r与变量之间的关系具有某种普遍性。反之,如果控制第三变量后,发现在不同的条件下,两者之间的关系不同,那么,则表示变量r与变量之间的关系具有一定的条件性。
二、净相关和复相关
我们在前面介绍了对两个定距变量的线性相关和回归分析,这里则讨论对两个以上变量的多元相关与多元回归分析。
1.偏相关
净相关或称偏相关,是指对第三变量加以控制之后,或者说,消除了其他变量的影响后两个变量之间的线性相关。净相关的计算以线性相关系数为基础,其公式为:
净相关系数的含义是,用第三个变量分别消解对r和的影响之后,测量两个变量间的“净关系”。根据控制变量的个数,可将净相关分为一阶净相关、二阶净相关、三阶净相关等等。而两变量的线性相关实际是净相关的一个特例,由此可称为零阶净相关。净相关分析所要求的变量也为定距变量,净相关系数的取值在-1到+1之间。
净相关与详析模式的分表法有相似的分析思路,都是利用统计控制消除其他变量的影响,以揭示两变量统计关系的真伪。只是详析模式适用于分析定类变量,而偏相关适用于分析定距变量。其具体分析程序是:
第一步,先计算r与的线性相关系数r。
第二步,引入检验变量1,并计算r与的偏相关系数r·1。
第三步,对r·1和r进行比较,若r·1=r,说明r与的关系不受控制变量的影响;若r·1=0,说明r与的关系完全由控制变量引起;若r·1≠0,且r·1<r,说明r与间的关系是部分由控制变量引起的。
2.复相关
与净相关不同,复相关不是关注对控制变量因素作用的分析,而是用一个统计值来测量多个变量对一个变量的共同作用。这一统计值叫做复相关系数,用符号r·rrr表示,其下标的点前面的是被作用变量的名称,点后面的是作用变量的个数与名称。复相关系数的值在0到1之间,其平方值称为决定系数,具有消减误差比例的含义。