登陆注册
42842900000054

第54章 统计分析(5)

我们仍以上表数据为例子。假设X的均值为12,则得到X′1=10-12=-2,X′3=12-12=0……假设Y的均值为10,则得到Y′1=6-10=-4,Y′3=7-10=-3……如下表所示。

教育年限(X)和以10元为单位的日收入(Y)。而且假定12个人的随机样本有下列资料:

(3)相关系数的解释

①事物的质与量的辩证关系对于相关计算的意义。在计算两个变量的相关系数之前,首先要考虑两个变量的质的联系,考察质变和量变的关系。换句话说,相关系数的计算,不单纯是量的问题,更重要的是质的问题。只有两个客观事物有质的联系才能对于它们的质所反映的量(或量的表现)进行相关系数的计算。应该认识到,事物的量是该事物一定质的量,离开一定质量,只是抽象的量,不代表任何事物。对于没有质的联系的事物进行相关系数的计算,将导致荒谬的论断。

②要充分注意样本n的大小。相关系数多大才算高相关,多大只是低相关或无相关。有人认为算出=0.70,=0.97就是高相关了,而算出=0.31,=0.28就是低相关。这些结论是轻率的。我们还必须注意到n的大小。相关系数的计算需要n的个数不能小于30,若小于30,可能出现失去意义的事。

从公式=ΣXY/nσ×σY可知,与n有不可忽略的关系。如计算结果,=0.31,其材料来源中n=105,则此相关系数不可忽略,但如果n=3,则计算的相关系数没有意义。

鉴于以上情况,只看相关系数的大小,而不视n的多少,说=0.7以上是高相关,0.30以下是低相关是片面的。

4.简单直线回归

(1)“回归”的概念

相关系数是测度X和Y两个变量之间相关程度的,但它不能告诉我们这种关系是什么(即这两个变量关系的形式如何)。为了从另一个变量的值预测一个变量的值,常常要求确定两变量的关系求出表示Y和X之间关系的方程。

回归的计算就是以一个变量为自变量,另一个变量为因变量,而测度其两个变量有关系的形式的过程。

可见,一个因变量随着一个自变量而变化,两个变量之间的关系可以用方程式表示出来,这样可以从自变量的值推算或估计与之相对应的因变量的值,这种推算式的求得称之为回归。直线回归是最简单的一种。

回归与相关的区别是:相关表示两变量间的相互关系,是双方向的,而回归只表示两变量随X而变化,关系是单方向的;相关是表示联系的程度,而回归则表达了联系的形式。

当然,回归和相关又是有关联的。当我们说X与Y的相关为0,就是说两者毫无关系。这时,知道了X(或Y)变量,就无法预测Y(或X)变量。相关越大,就越可以从其中一个变量较正确地预测另外一个变量。

(2)计算式根据数学推导(最小二乘法)所得的公式如下:

①b=0,r对就没有影响。b越大,r对的影响就越大。

②b=+,表示r增大,也增大,正向影响。

③b=-,表示r增大,却减少,负向影响。

这里我们利用10个学生的高中和大学成绩为例来进行回归计算。

假定有下列资料:

利用这个回归线方程,我们可以预测:

其他学生的大学成绩的期望值也都可以按这个计算出来,有的与实际成绩十分接近。

如:学生D的成绩(预测大学时)而D的实际大学成绩为3.2,就十分接近。

(3)关于根据回归线进行外测的问题我们可以根据回归方程进行预测,但一般只限于回归方程式计算范围之内,例如前例回归方程计算范围是从高中成绩2.2到4.0,在这样的范围内可以测3.0,2.5,3.5等,但不能超出2.2-4.0范围之外。在这个2.2-4.0范围内测算可以叫作内推,在范围之外的预测叫作外测。

由于客观事物的变化受各种条件的影响,事物的发展并不是单位数量的变化,因此,根据数量而预测事物的发展变化也只能在一定的限度之内进行。这就是说,只能做内推,而外测往往是值得考虑的。这也是哲学上度的问题。度是质与量的统一,质是有一定量的质,而量则是一定质的量。在作内推时,是在一定度之内的推测;在作外测时,则不一定在原来的度的范围内推测,很可能超出原来度的范围。

5.2测量法

相关比率可用于:自变量为定类或定序而依变量为定距的两变量之相关测量。

同时对于定距-定距变量是非直线关系,曲线关系的也可用这种方法。因而2测量法其用途是比较大的。

要注意的一点是,2的统计值,无正负之分,只告诉我们两者之相关。当然也具有消减误差比例的意义。

第五节多变量统计分析

社会现象之间的关系是纷繁复杂的,两个变量之间的关系可能受第三个变量的影响;一个变量能同时与多个变量相关,受多个变量的影响;多个变量之间可能相互关联,因此社会学研究除了首先进行单变量和双变量的统计分析以外,经常进行两个变量以上的多变量分析(multivariateanalysis)。

多变量分析主要分为三个部分:第一是详析分析,第二是多因分析,第三是多项相互分析。本节将选择一些基本内容作个简单介绍。

一、详析分析1.变量间的关系

统计调查的变量分析最早是由法国社会学家涂尔干运用到社会研究中来的。以后,经斯多弗、拉扎斯菲尔德、罗森伯格等人的发展与完善,形成了一套较系统的统计调查的资料分析模式——详细模式等等。

变量间的关系是多种多样的,有两个变量间的关系和多个变量间的关系。

在很多情况下,多个变量间的关系可以用数个两变量间的关系进行描述。因此,两变量间关系的研究是社会研究中最重要的内容之一。就两个变量而言,它们之间可能是有关系的,也可能是没有关系的。

两个从统计上看似无关或弱相关的变量,实际上可能的确无关;但是,也可能是有关联的,使两个变量真实关系不能表现出来通常是由于第三个变量的影响,它抑制、取消或削弱了这一真实关系。这种使变量间真实关系隐而不彰或减弱的变量叫做抑制变量。两变量之间这种统计上无关而实际上相关的情况称为虚假无关。而两个从统计上看具有相关关系的变量,它们之间的真实关系有下列三种可能的情况:(1)实际上无关;(2)实际上相关;(3)实际上具有因果关系。

统计相关的不同类型如下。

(1)统计相关而实际上无关

这种关系成为对称关系或虚假相关,即从统计上看有关系的两个变量实质上相互独立、互不影响,并无有意义的联系。对称关系用符号表示就是:

X-Y。

两变量对称关系的发生有时纯属巧合,例如某地区乌鸦的数目与小孩的出生数之间表现出某种关系,即乌鸦多的村子小孩出生数目也较高,乌鸦少的村子小孩出生数目也较少。乌鸦数目与小孩出生数目间的这种关系显然纯属巧合,两者间并无内在的联系。有时,两变量对称关系的产生是因为这两个变量是同一原因的结果。例如,我们发现家庭不稳定性与社会偏见同时增加,统计上也是相关的,但实质上两者都是社会流动增加的结果,彼此间并无影响。

(2)统计相关、实际也相关

两变量的这种关系称为相互关系。所谓相互关系是指统计上相关的两变量实质上也是有关系的,这种关系是一种交互影响的关系。在这种关系中,两个变量相互作用、相互加强。例如,投资与利润的关系:利润多的公司会增加其投资,而新的投资又增加了利润,这又造成再投资。这种关系用符号表示就是XY。

(3)实际的因果关系

因果关系是变量分析中所探讨的最重要的课题。社会研究中所说的因果关系是指在两个变量中,一个变量的变化伴有另一变量的变化,即一个变量影响另一变量,但反过来不成立。抽烟与肺癌的关系就是一个因果关系,抽烟可以导致肺癌,但反过来肺癌不会导致抽烟。

在因果关系中,能够影响其他变量发生变化的变量称为自变量;依赖于其他变量,但其本身不能影响其他变量的称为因变量,这也是通常我们希望解释说明的变量。因果关系用符号表示就是:X→Y。

判断因果关系中哪个比例为自变量,哪个为因变量的一般原则有两个:

①时间的先后。

②变量的不变性与可变性。在社会研究中常将一些具有固定性、持久性的变量作为自变量,如性别、年龄、民族等。还有一些重要的变量,它们只具有相对持久性,如社会地位、居住地及社会阶级等就属于这种类型的变量。这类变量比行为、态度等变量更为固定持久,因而往往被当作自变量。因此,在决定两个变量中哪个为自变量、哪个为因变量时,不变性只是一个相对的概念。

2.详析模式

(1)两变量的交互分类

两个变量在统计上相关与否与实际上是否存在内在的关系并不一定完全一致,对变量之间的关系和联系程度进行精确的因果分析,以判别关系的真伪、回答这种关系为什么会产生以及说明这种关系存在的条件。

(2)引入检验因素

检验两个变量间关系的最重要、最系统的办法是引入第三个变量。然后检查引入第三个变量后自变量与因变量原有关系的变化情况,由此澄清与深化对原有关系的认识,并揭示两变量的真实关系。这种引入第三变量对两变量关系进行检验,以解释或确定变量间关系的过程叫作分析的详析化,被引入的变量叫作检验因素或控制变量。

详析模式可以分为三种类型:因果分析、阐明分析和条件分析。因果分析的目标,是检定被看作自变量的r与被看作因变量的之间是否确实存在着因果关系。它通常是引进若干前置变量(第三变量),以判明r与之间的因果关系是否为虚假的,即两者的关系是否为前置变量影响的结果。香港中文大学李沛良教授曾列举了一个很有意义的因果分析的例子①。

假定我们研究住户的拥挤程度对夫妻间冲突的影响,调查得到下列资料,见表105。

我们不能简单地依据表105的结果就下结论说“住户的拥挤程度是导致夫妻冲突的原因”,因为或许还有其他的因素与这两个变量都相关且这两个变量同时受到其他变量的影响。比如,家庭的经济水平就可能是引起这两者的第三因素。因为家庭经济条件差,不仅会导致住房拥挤,还会导致家庭成员间的矛盾增多。为了判明住户拥挤程度与夫妻冲突之间关系的真假,就需要引进和控制家庭经济水平这一变量。我们将家庭经济水平分为高、中、低三组,在每一组中再来看原理两个变量之间的关系,假定此时得到表106的结果。

从表106的结果可知,在每个经济水平组内,住户的拥挤程度与夫妻冲突间的关系都非常微弱,且都没有达到0.05的显着度,可以说都没有关系。因此,我们可以下结论说:住户的拥挤程度与夫妻间冲突的因果关系是虚假的,这两个变量的相关实际上是由家庭经济水平的不同而导致的。

阐明分析的目标则是探讨因果关系的作用方式或作用途径。即当变量r与变量相关时,通过引进并控制第三变量,以判明自变量r是否“通过”第三变量而对因变量产生影响的。

条件分析所关注的则是原关系在不同条件下是否会有所不同。如果我们控制了第三变量,发现原理两个变量之间的关系在各种不同的条件下(即第三变量的各种不同取值中)依然存在,且大体相同,则表示变量r与变量之间的关系具有某种普遍性。反之,如果控制第三变量后,发现在不同的条件下,两者之间的关系不同,那么,则表示变量r与变量之间的关系具有一定的条件性。

二、净相关和复相关

我们在前面介绍了对两个定距变量的线性相关和回归分析,这里则讨论对两个以上变量的多元相关与多元回归分析。

1.偏相关

净相关或称偏相关,是指对第三变量加以控制之后,或者说,消除了其他变量的影响后两个变量之间的线性相关。净相关的计算以线性相关系数为基础,其公式为:

净相关系数的含义是,用第三个变量分别消解对r和的影响之后,测量两个变量间的“净关系”。根据控制变量的个数,可将净相关分为一阶净相关、二阶净相关、三阶净相关等等。而两变量的线性相关实际是净相关的一个特例,由此可称为零阶净相关。净相关分析所要求的变量也为定距变量,净相关系数的取值在-1到+1之间。

净相关与详析模式的分表法有相似的分析思路,都是利用统计控制消除其他变量的影响,以揭示两变量统计关系的真伪。只是详析模式适用于分析定类变量,而偏相关适用于分析定距变量。其具体分析程序是:

第一步,先计算r与的线性相关系数r。

第二步,引入检验变量1,并计算r与的偏相关系数r·1。

第三步,对r·1和r进行比较,若r·1=r,说明r与的关系不受控制变量的影响;若r·1=0,说明r与的关系完全由控制变量引起;若r·1≠0,且r·1<r,说明r与间的关系是部分由控制变量引起的。

2.复相关

与净相关不同,复相关不是关注对控制变量因素作用的分析,而是用一个统计值来测量多个变量对一个变量的共同作用。这一统计值叫做复相关系数,用符号r·rrr表示,其下标的点前面的是被作用变量的名称,点后面的是作用变量的个数与名称。复相关系数的值在0到1之间,其平方值称为决定系数,具有消减误差比例的含义。

同类推荐
  • 著名科学家成才故事(中国名人成才故事)

    著名科学家成才故事(中国名人成才故事)

    本套书精选荟萃了中国历史上最具有代表性的也最具有影响力的名人,编辑成了这套《中国名人成才故事》(共10册),即《著名政治家成才故事》、《著名军事家成才故事》、《著名谋略家成才故事》、《著名思想家成才故事》、《著名文学家成才故事》、《著名艺术家成才故事》、《著名科学家成才故事》、《著名发明家成才故事》、《著名财富家成才故事》、《著名教育家成才故事》等,这些故事既有趣味性,又蕴含深刻的道理,能够带给我们深刻的启迪,是青少年课外不可缺少的精神食粮。
  • 引领青少年的100个民风民俗

    引领青少年的100个民风民俗

    孩子们都想要知道一些自己不知道的事,也喜欢寻找答案,念书或是探索的行动,也是出自于一种好奇心。所有的儿童书籍里都具有探索的架构,其中探索架构最浓厚的,莫过于神话故事、民间故事以及传说故事,内容包括侦探小说、冒险小说、科幻小说等。
  • 哈佛考考你

    哈佛考考你

    《哈佛考考你》以轻松、简明的语言阐述了哈佛面试中会考察到的学生必备的智力、能力、品质等各方面的素质,让申请哈佛的学子和有志青年在通过一系列试题的训练中能够更加清楚地认识自己,并有目标地对自己进行培养和提高。
  • 中国学生缺什么?

    中国学生缺什么?

    本书以“当代中国学生缺什么”为主题,从缺真实、缺健康、缺阅读、缺创造、缺激情、缺发展、缺快乐等七个方面进行系统论述。全书以案例——反思——链接——回应为写作体例,通过鲜活的现实案例,明锐的反思分析,激发心灵的碰撞,揭示学生身上所投射出的教育、家庭及社会问题。引发思考。
  • 语文新课标课外必读第一辑——格列佛游记

    语文新课标课外必读第一辑——格列佛游记

    国家教育部颁布了最新《语文课程标准》,统称新课标,对中、小学语文教学指定了阅读书目,对阅读的数量、内容、质量以及速度都提出了明确的要求,这对于提高学生的阅读能力,培养语文素养,陶冶情操,促进学生终身学习和终身可持续发展,对于提高广大人民的文学素养具有极大的意义。
热门推荐
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 何如

    何如

    故事开始的那一年有人抢走了她的木鱼,有人教她抚琴,有人把她照顾的很好,那时她像个公主,甚至公主都曾羡慕过她。后来她有了很多朋友,甚至有了一个想为他快些长大的人。那时也有一个人把她盖了一层又一层的玄布之后狠狠的压在心底,之后在未见过阳光。岁月浅浅,可这是关于一个岁月深处,拨云绕雾都不可见其全貌的故事。若当初不曾相识,琴曲奏予她人,你可愿意?你打下这万里山河,何处不觅为我抚琴之人?
  • 穿越之天才王妃闹古代

    穿越之天才王妃闹古代

    被恨心的姐姐害死,冷诗恬穿到相府,皇帝赐婚,嫁给三王爷为妻,身上的秘密揭露之时,却已决心忘却过去,美男环绕,快意江湖。实力强大的魔教迅速崛起,带着重重疑惑,谁能想到,那个谦逊的王爷会是主导这一切阴谋的人……误会,伤害,心结最后一一解开,澈,你我永不分离。
  • 我成了大佬的小祖宗

    我成了大佬的小祖宗

    传闻中对女人不感兴趣的商界大佬阎臻,在突然的某一天,春心萌动了。“查查。”大佬笑的好甜。“大佬,人家是A城首富家的少夫人!”大佬:“从现在开始,不是了!”后来,大佬抛掉了矜贵,费尽了心思、耍尽手段,天天的捧在掌心,千般的哄着,万般的宠着,当小祖宗一样的供着,可他都做到了这个地步,这女人还是把他绿了?大佬怒了,注册了一个ID:林今夕是渣女!大佬决定报复这个没良心的女人,从此之后世界每天的通告变成了:林今夕是渣女在林今夕的直播间送出999个5201314!林今夕:哎,特么的人家的榜一大佬是真爱,她特么的榜一大佬是黑粉,真是风中凌乱,天地玄幻!直到很久很久之后,大佬跟渣女求婚,深情款款的说:咱俩本无缘,全靠我砸钱!
  • 白夜之灵

    白夜之灵

    柴原高中北校区是个不太正常的校区,学校将本部一批身心有问题的学生转到这里就学。学校方面承诺他们只要不中途退学,高中毕业后校长就会直接举荐他们上名牌大学。但是北校区的学费却足以令一个普通家庭倾家荡产。我便是这里的一名学生。只因为我被人得知拥有阴阳眼,因此被学校要求到那边的校区就学,可并不是纯粹因为这样才会让我到北校区就读,似乎还有其他原因。而且在这件事之后,一系列奇怪的事件接踵而至……
  • 冬天无雪

    冬天无雪

    这部小说是发生在中国最著名的侨乡晋江,中国特别行政区香港以及东南亚的故事,以中国开放改革为背景,以第一主人公许佰强的人生经历为主线,描写他艰苦创业的精神和感情上的纠葛,尤其李碧以晴她女性的细腻、真挚的情感精确的把握了人物复杂的心理活动,塑造了李碧晴这一丰满的人物形象,小说构思极富有浪漫情调和强烈的故事情节。人物和场景都细腻生动,语言优美,使得整个作品极有魅力,作品展现另一个波澜壮阔的场面,由许佰强所展现的人生心路历程的故事,把读者带到上个世纪六十年代那个红火的荒唐的不堪回首的年代,今天已经不复存在。
  • 你似轻舞踏秦而来

    你似轻舞踏秦而来

    她为寻他从大秦到二十一世纪,他已成为别人的未婚夫,更不认识她的脸,而重生后的她意外的变成了哥哥的妻子。一番曲折后,她和千年前的爱人一同来到了大秦的静谧谷,他们的故事已被写进历史的史书供世人瞻仰。她说:“我们用十天的时间去换一生一世,在这十天里只有我们的静谧谷,等十天过后你去做你的新郎,我去做我的主妇。”他说:“我情愿时间停止运转,十天变成十年,变成一生一世,变成一世纪。”当她静下心态准备在二十一世纪岁月静好时,一具秦朝女尸被挖掘出来,她手腕上的印尼手镯引起了考古教授的注意,从此她成了被猎杀的对象……
  • 训灵时空

    训灵时空

    宇宙的一角存在这一轮星系――斗灵星系,分别有蓝、启、南轮、北轮、斗灵,五大星体,在这里没有魔法,以灵力为尊,以契约为引,以肉身为媒。荒古之陨,紫电招魂,往生赋名,梦回新生,这一世的他能否披荆斩棘,登临强者之巅?书写那属于自己的傲世篇章!
  • 云风起夜

    云风起夜

    这这个时代里,无数人的放弃了梦想,从而成就了无数人的梦想。而成功之后,又激励更多的人成就梦想。
  • 重生锦鲤小媳妇

    重生锦鲤小媳妇

    楚凌最大的愿望就是做个资深佛系小女人,挣点钱钱出去嗨。某人此生有三愿,一愿和楚凌做真夫妻,二愿和楚凌做真夫妻,三愿和楚凌做真夫妻!楚凌想仗着老实巴交的小哥哥走出村子,万万没想到从此掉入腹黑狡诈大魔王的坑里……