例如,教育水平低的有30人(这是边缘次数),其中以快乐家庭、理想工作和增长见闻为最大志愿的分别有5人、20人和5人(这些是条件次数),由此可见,这些青年中大多数是以理想工作为最大志愿。同理,可知其他教育水平的志愿分布情况。
条件次数表有大小之分。计算的方法,通常是将依变量值的数目乘上自变量值的数目。如果我们将依变量放于表的旁边,将自变量放于表的上端,则表的大小就是横行数目(rows,简写)乘上纵列数目(columns,简写犮),即表的大小=×犮。这个先后次序的用意,是表示前者(依变量)是受后者(自变量)影响的。上表有3个横行和3个纵列,所以表的大小=3×3。如果教育水平由三级变为两级,但志愿的分类不变,则表的大小=3×2。如果教育水平仍是分三级,但志愿的分类变为2种,则表的大小=2×3。要注意的是,3×2表不同于2×3表,因为不同位置的数值代表不同的变量。
条件次数表的缺点是难于比较不同条件下的次数分布,这是因为作为基数的边缘次数各有不同。例如上表,中等教育水平的青年中有30人的志愿是理想工作,低等教育水平的则有20人,前者多于后者,是否表示前者较多以理想工作为最大志愿呢?由于表的下端显示前者的基数(即边缘次数)是60人,而后者是30人,也是前者多于后者,我们不易下结论。因此,为求相互比较从而知道两个变量间的关系,就必须将各个基数标准化。换言之,要在相同的基础上作比较。
最常用的标准化方法,是将所有基数都变成100,各个条件次数就随而变为百分率。这样制成的表,就称为条件百分表。例如下表103,就是根据上表而制成的条件百分表。
将此表103的各列条件百分率相互比较,就可以知道教育水平对志愿的影响。例如,将各列条件百分率对比,可见低等教育水平的青年比其他教育水平的青年更以工作为重。又高等教育与中等教育水平的青年都重视家庭情况,但前者比后者更重视见闻,而后者则比前者更重视工作情况。总括来说,如果青年人的教育水平不同,他们的最大志愿也会有区别。教育是决定青年人志愿的因素之一。
在制定条件百分表时,最好能依据下列的准则:
(1)每个表的顶端要有表号和标题。加上表号,可以方便讨论和减少混乱。
简明的标题,能使读者容易领会表内数值的意义。
(2)绘表时所用的线条,要尽可能简洁。舍去不必要的线条,可以节省绘制的功夫,也会令人看起来舒服。上表所用的线条就是力求简洁,是当今的社会学刊物中常用的一种方式。
(3)在表的上层(即自变量的每个值之下)写上%符号,表示下列的数值都是百分率。如果表内每个数值都附有%符号,就太繁复了。
(4)表下端括弧内的数值,表示在计算百分率时所根据的个案总数。写出这些数值,固然可以使我们知道各列百分率的基础,同时也使我们可以随时将百分率数值变回原来的次数值。如上表左上角的数值50.0%是根据10名个案计算出来的,原来的条件次数便是5(=10×50%)。因此,在研究报告中,如果有条件百分表,便不需要有条件次数表。
(5)表内百分率数值的小数位要保留多少,视研究的需要而定,但最好是有一致性。例如,上表既然用上16.7与66.7,就要用50.0与0.0,而不是50或0。
要注意的是,这些小数点后的0是一个有意义的数值,表示全部百分率的计算都是以保留一位小数作准则。
三、消减误差比例
相关测量法,就是以一个统计值表示变量与变量之间的关系。这个值,通常称为相关系数。
相关测量法有许多种,大多数是以0表示两个变量间没有关系,以1表示全相关,因此介于0与1之间的系数值越大就表示相关程度越高。如果是定距或定序变量,更可以测定相关的方向,通常是以“+”符号表示正相关,以“-”符号表示负相关。
相关测量法既然有许多种,我们怎样选择呢?首先,要注意变量的测量层次:定类、定序和定距。属于不同测量层次的变量,就要用不同的相关测量法。
其次,就是看统计值的意义。我们最好选用统计值有意义的相关测量法。在统计学中有一组相关测量法,其统计值具有消减误差比例(proportionatereductioninerror)的意义,称为PRE测量法。
什么是消减误差比例呢?社会研究的主要目标是预测或解释社会现象的变化。比如有一种社会现象Y,我们就要预测或理解其变化的情况。预测或解释时,难免会有误差(即错误)。假定另一种社会现象X是与Y有关系的,如果我们根据X的值来预测Y的值(例如据每个青年人的教育水平来估计其最大志愿),理应可以减少若干误差。而且,X与Y的关系越强,所能减少的预测误差就会越多。换言之,所消减的误差有多少,可以反映X与Y的相关强弱程度。
现在假定不知道X的值,我们在预测Y值时所产生的全部误差是1。如果知道X的值,我们可以根据X的每个值来预测Y值;假定误差的总数是2,则以X值来预测Y值时所减少的误差就是:1-2。这个数值(1-2)与原来的全部误差(1)相比,就是消减误差比例。
例:X→Y用X去预测Y现象。
不知X,预测Y全部误差,可用〇Y表示。
知X,预测Y,假如X、Y有关系,则可消减(减少误差)X。
可用下面的公式表示:
PRE=(1-2)/1。PRE的数值越大,就表示以X值预测Y值时能够减少的误差所占的比例越大;也就是说,X与Y的关系越强。
从上面的公式中,可见PRE数值应在0与1之间。如果2=0,即以X预测Y不会产生任何误差,则PRE=1,反映X与Y是全相关。如果2=1,即以X预测Y所产生的误差相等于不以X来预测Y所产生的误差,则PRE=0,反映X与Y是无相关。又比如PRE数值是0.80,就表示以X预测Y可以减少80%的误差,反映两者的相关程度颇高。但是,如果PRE数值是0.08,就表示只能消减8%的误差,即X对Y的影响甚小,我们需要寻求其他的变量来预测或解释Y。
从上面的讨论中,可见PRE测量法的统计值所具有的意义合乎社会研究的需求,故常用于社会研究中。社会研究要求预测或解释社会现象的变化,但会有误差。社会研究所以要研究现象与现象之间的关系,目的就是要减少预测或解释时的误差,减少得越多,就显示我们的预测或解释能力越强。而PRE数值的意义,就是表示用一个现象(如变量X)来解释另一个现象(如变量Y)时能够减除百分之几的误差。
然而,PRE测量法有很多种,我们在分析两个变量之间的关系时应该如何抉择呢?首要的准则,是两个变量的测量层次。次要的准则,是两变量之间的对称或不对称关系。我们必须尽可能遵守测量层次这项准则;至于关系是否对称这项准则,当然最好是遵守,但不用过分重视①。
社会学研究所经常关心的是三项测量层次:定类、定序和定距。研究两个变量的关系时,可能产生下面的六种情况:
①两个定类变量;
②两个定序变量;
③两个定距变量;
④一个定类变量和一个定距变量;
⑤一个定类变量和一个定序变量;
⑥一个定序变量和一个定距变量。
四、相关测量法
1.λ测量法
λ用在寻求社会变量的定类和定类变量层次之间或定类与定序变量之间的相互关系测量上。
这个例子中PRE(消减误差比例)的意义如何呢?
(1)如果不知r(性别)的资料,只用(电影爱好)的资料,即只知道100人中有34人喜欢侦探片,57人喜爱言情片,而不知其男女性别分布情况。那么,我们用众值57来预测每一个个案,其错误率就是1=43。
(2)已知r的分布,来预测每个个案,即在男性中,我们以众值35来代表50人全体,其错误为15;在女性中,我们以众值42来代表50人全体,其错误为8。
结论:消减误差比例为0.46,也即以性别来预测电影爱好能减少46%的误差。
2.aMMa测量法对于定序-定序的变量,往往用Gamma测量法。
先介绍一下Gamma测量法中特定的符号含义。
下图图示显示ABCDE五人在X与Y两变量上的名次。然而两者是否相关呢?即是否在X上名次高,在Y上也名次高呢?对于这两个定序变量,往往用Gamma系数(犌)来表示其相关程度。从而每个个案以比较高低。这里常用以下几个概念:
同序对:一对对象在两个变量的排列次序上是一致的,称之同序对。如上表中AB是同序对,A在X、Y这两个变量上的名次都高于B(3大于2,2大于1)即在排列次序上是相同的。
异序对:一对对象在两个变量的排列次序上不一致时,称之为异序对。如在上表中,BC是异序对。B在X变量上小于(低于)C,(2<3)而在变量上大于(高于)C(1>0)。在次序排列上是不一致的。
X同分对:一对对象在r的变量方向上是一致的,在的变量中不同。上表中AC是同分对。
Y同分对:一对对象在的变量方向上是一样的,即相同的。上例中BD是同分对。
XY同时分对:一对对象在r和的变量方向上都要一致的,上表中DB是r、同分对。
这样的对子,写几本练习本都写不下。
为此我们需探求其中是否有些规律性的东西。
一般的情况下,我们可以将原始资料通过以上分类,列成条件次数表,然后以如下的规则求同序和异序对:
下面举个例子来巩固一下Gamma测量法。
如有一个调查是关于父母的文化水平与幼儿认知水平的关系(如下表)。
父母的平均文化水平与儿童的认知发展水平这是两个定序变量。
这两者是否有关系,要看其相关的程度如何。我们可以用Gamma测量法。
这说明父母的平均文化水平与儿童的认知发展水平两者是相关的,是连同发生的,相关程度是0.53,即以父母的文化水平来预测儿童的认知水平可减少53%的误差。但是,父母的文化水平是否为儿童的认知发展的原因还未能说明,还要作进一步的分析。
3.测量法
(1)相关系数
相关系数用表示,是两列变量间相关程度的数字表现形式。
求的条件是:变量是定距-定距,定比-定比,定比-定距。Σ(X,Y)是线性的,非方向性的。
当我们选择容量为n的随机样本,并对样本的每一个个体作两方面观察以后,我们就得到n对观测资料。
例如,现代学校一般保持着每一个学生的身体、心理、教育各方面特征的记录。这些记录可能是年龄、身高、体重、各科成绩、智力、兴趣或其他性格等。如果我们把标志着每一学生的任何两个特征的数量一对一对地抽出来,便得到几对观测资料。如我们取每人的身高和体重,也可取语文成绩和数学成绩成对进行考察。同样,我们对于小麦块的样本,可以测度每一地块的产量及其降雨毫米数。或者,对于老鼠的样本,可以测度每只老鼠自上次喂食以来的时间及其通过另一端放有食物的迷宫的时间。
所有这些情况均有某些共同点——随机样本的每一个体均有两种可以测度的有意义的属性。我们用X表示第一种属性的测度值,用Y表示第二种属性的测度值。那么,第一个个体的观测资料是(X1,Y1),第二个的观测资料是(X2,Y2)等,从而随机样本由n对观测资料(X1,Y1),(X2,Y2)……(Xn,Yn)组成。
(2)相关系数的计算
我们知道表现相关程度的数字,称为相关系数(CorrelationCoefficient)。
而这个数字应有个计算公式,以便应用。20世纪初,英国的统计学家皮尔逊(KarlPearson)创立了计算相关系数的公式,因而称之为Pearson系数。
这是定义公式。在计算时较为繁杂。在实用上,为求简便,我们有一个计算公式:
当未归类的原数目量不太大时,可直接用原数目求相关系数,这是此公式的好处。在标准台式计算器上,一次连续运算中获得如下5个总数往往是可能的,即——ΣX,ΣY,ΣX2,ΣY2,ΣXY。故而也便于借助电子计算机来运算。
例如,假定从某城市40-50岁全工作日就业总体中抽选一随机样本,并记载每人的受教育年限(X)和以10元为单位的日收入(Y)。而且假定12个人的随机样本有下列资料。
我们以下表数据用计算公式来计算样本相关系数。
以上列表求出5个总数。我们使用CASIOJr-120或CASIOJr-140计算器,可分别将X及Y的原始数据输入,直接在机器的表度盘上显示出ΣX2,ΣX,n,X,σn,σn-1等数值,取其中ΣX2,ΣX,ΣY,ΣY2,然后再求出ΣXY即可。
以上计算也可用假定平均数进行计算。
从上例运算可知,即使原数目很小,运算起来也是数目越算越大,十分麻烦。
如果我们用在原数中每个数都减去一个假定平均数的办法,可以使数目化小,方便计算。这个假定平均数不必是真实平均数,只需估计一下即可。其计算公式为: