复相关(multiplecorrelation)是以一个统计值简化多个自变量(X1,X2……Xa)与一个依变量(Y)的关系的统计方法,可表示为:
复相关是以积距相关为基础,统计值的值域是(0,1),只表示相关的强弱,不表示相关的方向,因为各自变量对依变量的影响的方向可能是不同的,不可能求得共同的影响方向。相关的平方值2称为决定系数(coefficientofdetermination),具有消减误差比例的意义。1-2是剩余误差,通常称为疏离系数(coefficientofalienation)。
为了形象地表达复相关系数的基本逻辑,我们用下面的三环图表示两个自变量X1和X2与Y的相关:
在左图中三个圆分别代表Y、X1和X2,整个圆代表当不知X1和X2时,仅用Y本身的平均值预测每个个案的Y值时全部的误差。当我们用X1来预测Y时,所消减的误差比例是21,即斜线阴影部分。当我们再引进X2来预测Y时,由于X2消减的误差中有一部分,即一个圆相交的斜线阴影部分已被X1所消减。
因此,要控制X1的影响才求得引进X2后能增加多少被消减的误差,用部分净相关可求得此结果,此结果以2(2,1)代表。在图中便是麻点阴影部分。因此X1和X2共同消减的误差是:
用于计算复相关的数据资料原则上必须满足两个前提条件:第一是各自变量与依变量的关系在分布上呈直线;第二是严格而言,复相关以下将要介绍的多元回归、因径分析和因素分析的每个项目或变量都应该是定距或以上测量层次,但是社会学研究中定距变量毕竟是少数,大量的变量都是定类或定序的。对于定序变量,如果希望采取复相关,多元回归等较为深入的统计方法。可以将之变为虚构变量。但是,这样做颇为麻烦。因此,一些社会学研究者宁愿将定序变量当作定距变量来分析(李沛良,1987)。尤其是当变量是由多个定序的项目相加而成时,等级增多了,比单个项目的定序较为接近定距变量。将定序变量当作定距变量分析在一定程度上有损与统计的精确性,但是为了能使用较为细致、深入的统计方法。这样做有时还是可取的。
三、多元回归分析
复相关测量两个以上的自变量与一个依变量的总相关。但是不能以各个个案的两个以上的自变量估计或预测一个依变的数值,同时也无法比较哪个自变量对依变量的影响力较强。在介绍了如何运用简单直线回归分析以一个自变量预测一个依变的数值。以简单直线回归为基础发展的多因直线回归分析(multiplelinearregressionanalysis)则可以解决上述复相关不能解决的两个问题,多因直线回归分析可表示为;我们曾介绍简单直线回归方程:
简单直线回归方程经标准化后成为直线回归方程:
相应的,分析多个自变量对一个依变量的影响的多因直线回归方程多是:
an表示n个自变量的回归方程式的截距,b是净回归系数,反映控制其他变量后,某个X变量对Y的影响力,与简单直线回归一样,多元直线回归方程式也是根据最小平方准则建立的。可以根据若干个自变量X值估计或预测依变量Y值。但是由于各自变量的单位不同。各b值的值域不固定,无法根据其大小比较各个自变量X对Y的影响力。如果要作比较,必须标准化将每个个案自变量和依变量的数值都转为标准值。用标准值建立标准多元直线回归方程式经过标准化,各X值和Y值的平均值都等于零,因此标准多元直线回归方程中的截距α等于零,方程中的β是标准净回归系数。其值域是[-1,1],可反映X对Y的影响力和方向,比较各β便可知道X对Y的相对影响力。
那么如何计算多元直线回归方程呢?
首先介绍两个自变量的分析,其模型是:
当只有两个自变量X1、X2时,求β1、β2的公式推导已经介绍过,当在3个自变量X1、X2、X3时,β1、β2、β3推导的道理是相同的。
因为:1=Σβnni
所以,当有3个自变量X1、X2、X3时;由于自身的相关低于1,并且截距相关是对称的,12=21,因此上述方程组可简化为:
1=β1+β221+β331
2=β112+β2+β332
3=β113+β223+β3
其实根据上面的这组公式,只要求得由4个变量组合的相关,不必像前面介绍的两自变量的β计算时作β的公式整理推导,直接将各相关系数代入上面的方程组,便可解出β1、β2和β3,根据β和b的关系,又可求得b1、b2和b3的值:
求得b1、b2和b3,便可计算截距:
a3=Y-b1X1-b2X2-b3X3
多元直线回归必须注意下列三个问题:
第一,直线关系。多元直线回归要各自变量与依变量的关系是直线的,如果发现资料中自变量与依变量的关系显曲线状态,解决的办法有两个:一是将变量转换为对数,倒数或方根等;二是采用多项式回归分析(polynominalregressionanalysis)。
第二,统计累赘。如果要比较3个以上的自变量对依变量的相对影响力,即比较β1、β2和β3的大小时,必须注意统计累赘(statisticalredundancy)的问题,β代表控制其他变量后其相应的自变量对依变量的相对影响力。例如β1=βY(1.23)代表控制了X1和X3后X2对Y的影响力。如果其中的两个自变量,如X1和X2之间的关系特别强在互相控制后会使各自的影响β1和β2显得微弱,而其他变量,X3的影响β3便会显得比β1和β2强。但是,可能实际上X1和X2对Y的影响力比X3大,这便是统计累赘的问题。为了避免统计累赘的问题,在选择自变量时不要引进互相之间相关强的变量。同时也不要随便引进不很重要的自变量。
第三,统计互动。统计互动(statisticalinteraction)是指两个或两个以上的自变量共处时可能会产生一种不同于它们各自的效果之和的互动效果①。
第六节推论统计简介
一、推论统计一般概念
推论统计是一门通过样本的统计值来估计总体的参数值的学问。在社会研究中,我们很少做普查,更多的是做抽样调查,所描述分析的资料也多为样本资料。
对样本资料的分析是叙述统计,如前所述,集中趋势、离散程度、相关分析、回归分析等。然而,抽样调查的目的是要由样本特征对总体作出结论,这就是推论统计。
推论统计分为两大类:(1)参数估计(parameterestimation);(2)假设检验(hypothesistesting)。所谓参数的估计,就是根据一个随机样本的统计值来估计总体之参数值是多少。例如,由样本算出的每月收入平均值680元,则在总体中平均是多少呢?可见参数之估计这类统计推论方法,是先看样本情况,才问总体的情况。至于假设之检验,在逻辑上与参数之估计有点不同;它是首先假设总体的情况是怎样的,然后以一个随机样本的统计值来检验这个假设是否正确。
换言之,要先构思总体的情况,才进行抽样和分析样本的资料。例如,我们先假设总体的情况,才进行抽样和分析样本的资料。例如,我们先假设总体的均值是750元,然后根据样本的均值来发问:原先的想法(即假设)对吗?由此可见,参数估计与假设检验,虽然都是用来作推论统计,但在逻辑上略有不同;前者是先看样本情况才问及总体的情况,后者则先构思总体的情况,然后才进行抽样和分析样本的资料。
二、参数估计
1.点值估计与间距估计
以样本的统计值来估计总体的参数值有两大类做法:一类是点值估计;另一类是间距估计。两者皆要求样本是以随机方法抽取的。