②数据转换
数据的格式与内容界定完成之后,这些数据虽然已经可以被计算机所辨识,但是尚未达到可以使用的状态,在进入数据的分析工作之前,仍有一些校正与转换的工作必须完成,例如反向题的反向计分、出生年月变量转变成年龄之新变量、总分的加总等,这都是第二阶段即数据转换(datatransformation)必须完成的工作。此外,废卷处理、数据备便、遗漏值的补漏检查等工作,也是在此一阶段进行。
③数据分析
SPSS数据处理的最后阶段,是依操作者的指令,进行各种统计分析或统计图表的制作,即数据分析(dataanalysis)。首先,操作者必须具备良好的统计基本知识,熟知研究的目的与研究数据的内容,才能在数十种统计指令当中选择适合的统计方法来分析数据。其次,操作者也必须能够阅读分析之后的报表数据,从不同的指数与指标当中,寻求关键且正确的数据来作为研究报告撰写的根据。
数据分析完成之际,通常需进行适当的文字处理作业,将输出报表进行编辑、打印,并撰写结果,数据分析的工作才算顺利完成。SPSS软件的视窗版自己附带了一个文本编辑器,专门用来编修统计图表,SPSS的使用者必须熟悉SPSS的文本编辑器,才可以在数据分析完成后,实时进行表格图表的编修,否则一旦图形、表格被转贴到其他软件之后(例如Word或PowerPoint),就无法加以调整,使用者必须多方尝试,累计经验来进行文本编辑工作。
SPSS软件自推出以来,由于语言编写方式较为简易,使用者较多,视窗版推出之后,更获得使用者与学习者的欢迎。SPSS软件英文版第18版已经于近年推出。越新版本的SPSS,功能越强大,同时与其他软件的兼容性也更高(例如EXCEL)。尤其是英文版的系统设定当中可以指定使用的语言形式,中文使用者可以直接选择繁体中文模式(TraditionalChinese)即可直接将结果报表以中文化方式输出。
第二节统计资料整理
一、资料的审核与编码
1.审核
资料审核的方法主要有两种,即逻辑审核与计算审核。
逻辑审核,即核查资料的内容是否合乎逻辑和常识,项目之间有无互相矛盾之处,与其他有关资料进行对照是否有明显出入等等。
计算审核,是针对数字资料进行的审查。要检查计算有无错误,度量单位有没有用错,前后数字之间有无相互矛盾之处等等。
在资料的审核中,如发现问题,可以分别不同情况予以处理:(1)对于在调查中已发现并经过认真核实后确认的错误,可由调查者代为更正;(2)对于资料中的可疑之处或明确有错误与出入的地方,应设法进行补充调查;(3)在无法进行或无需进行补充调查的情况下,应坚决剔除那些有明显错误的或没有把握的资料,以保证资料的真实性和准确性。
这里应当强调的是,为了保证审核后的资料能得到及时的补充或纠正,一般不应在所有的调查工作都结束、调查队伍离开调查现场后,再去搞资料的整理工作,而是应当在搜集资料的过程中及时进行资料的审核工作。
2.编码
如果整理后的资料要用电子计算机进行数据处理,则还需对资料进行编码,即将问卷或调查表中的信息转化成计算机能识别的数字符号。也即给每一个问题的每种可能答案分配一个代号,通常是一个数字。调查者要根据它将调查资料变换成计算机能识别的数字符号,输入计算机进行处理,然后再根据它将计算机处理的结果转换成能阅读的资料。
编码可以在设计问卷时进行,也可以在数据搜集结束后进行。大多数正规的准备用计算机进行处理的问卷调查,在问卷设计时就已经事先确定了答案的称之为首编码或先编码(precoding)。对这种问卷的编码,只要将被调查者在问卷中所选择的项目的代号或所填的数字填入相应的编码表栏目内即可。
对于问卷表或调查表中的封闭式问答题中的“其他”项、开放式问题,则应在对所有回答进行分类的基础上,给每一类回答定一个代号,制成编码表,然后再将每一份问卷的开放式问题的回答所对应的代号填入编码表内,这叫后编码(Postcoding)。
前编码和后编码所用的编码本最后将合并为一个编码本。一般来说,编码本不但是编码人员的工作指南,也提供了数据集中变量的必要信息。编码本一般包含变量的以下几方面的信息:
(1)所有列的位置(列数);
(2)变量的顺序编号;
(3)变量名称及变量说明(变量及变量标志);
(4)问答题编号;
(5)编码说明(变量值及变量值标志)。
二、资料的录入与汇总
1.数据录入
经过前述的编码处理,调查所收回的问卷中的一个个具体答案都已成功地系统地转换成了由0-9这10个阿拉伯数字构成的数码,接下来的任务就是将这些数码输入计算机内,以便进行统计分析了。
数据录入的方式主要有两种:一种是直接从问卷上将编好码的数据输入计算机;另一种是先将问卷上编好码的数据转录到专门的登录表上,然后再从登录表上将数据输入计算机。登录表的横栏为问题及变量名,且都有给定的栏码,纵栏为不同的个案记录数据,表101就是登录表的一部分。
直接从问卷输入数据的长处是避免了再次转录中可能出现的差错;但它的不足是录入时要不断地翻动问卷(一页一页地录入),录入的速度相对要慢一些。
特别是当一份问卷问题较多、内容较长时,直接输入往往比较麻烦,效率较低。
将问卷上的数据先转录到登录表上,再输入计算机的做法,虽可以使得计算机录入人员比较方便,因而相对来说也比较快,但它却要冒增加差错的风险。因为将问卷上的数据抄录到登录表中,等于增加了二次转录过程。而每一次转录都存在出错的可能性,两次转录出错的机会往往大于一次转录。
有时候也可使用光学扫描仪(opticalscanner)输入资料。这种仪器可以判读记在特别的编码纸上的铅笔记号,并相应的把这些信号所表达的信息转换成资料文档。
2.资料的汇总
资料的汇总,是指根据调查研究的目的,将资料中的各种分散的数据汇聚起来,以集中的形式反映调查单位的总体状况以及调查总体的内部数量结构的一项工作。资料的汇总是资料整理工作中的必不可少的重要环节,也是分析资料前的一项基础性工作。
根据调查研究的目的不同资料汇总的方式与方法也有所区别,可以分为总体汇总和分组汇总两大类。总体汇总是为了了解总体情况和总体发展趋势的,分组汇总则是为了了解总体内部的结构和差异的。资料的总体汇总可以在对资料未进行分组的情况下进行,而资料的分组汇总则必须在对资料进行分类与分组后才能进行。
资料的汇总技术主要有两种:手工汇总及计算机汇总。这里主要介绍这两种技术的方法或步骤。
(1)手工汇总
手工汇总主要包括:点线法、过录法、折叠法和卡片法这四种方法。
①点线法。它也被称为划记法,它是以点或线等记号代表个案次数进行划记汇总的方法。常用的记号有“正”,类似于选举中常用的唱票方法。
②过录法。就是把原始调查资料过录到预先设计好的过录表或汇总表上,然后加总的一种方法。运用过录法汇总资料能看出总体各单位的情况,便于比较;能防止遗漏,不易出错;而且过录后的原始资料便于保存。但这种方法的工作量比较大。
③卡片法。就是将每个个案的资料分别登录到特制的资料卡片上,然后进行汇总的方法。用卡片法汇总的主要目的是将原始资料简化。
④折叠法。就是将若干调查表沿所要汇总的某一项目折叠起来直接进行汇总的方法。这种方法省去了过录资料的中间环节,但汇总资料的份数不能太多,而且一旦汇总中出现错误,就要从头返工。
(2)计算机汇总
计算机汇总大致分四个步骤:编码、登录、录入和程序编制。
编码是将问卷中的信息数字化,转换成统计软件和统计程序能够识别的数字,也即将资料的文字形式转换成数字(或符号)形式。这项工作是一种信息代换的过程。调查者要根据它将问卷调查资料转换成能够统计、计算的数字,输入计算机。登录是将编好码的问卷资料过录到资料卡片上去,以便于将它们输入到计算机的磁带、软盘或硬盘上去。录入是将登录在资料卡片上的数据录入到计算机的存储设备(磁带、软盘、硬盘)上,其工作性质同登录相同。所不同的是登录的操作是在资料卡片上进行,录入是在计算机的终端机上进行。然后就是汇总,要用计算机汇总资料就必须给计算机输入一种指令,指挥计算机进行工作,这种指令就是程序。现在这项工作已由软件工作者为我们做好,我们只需会使用软件包就行了。资料整理的程序比较简单,又是统计的基础,有很多软件包可以用,最常用的是SPSS软件包(社会科学统计软件包),它已解决了中文统计表格输出问题,用起来很方便。
操作者通过按键将登录卡上的数据敲入计算机,同时屏幕显示数据,这一阶段注意力一定要高度集中,严防跳行、漏读、按错数键所产生的错误。利用SPSS软件包,录入后可以查错、纠错。查错的程序有两种。第一种是检查输入信息的有效性,即对数码进行幅度检查。幅度检查的方法主要是检查资料的子项是否都在规定的幅度范围内。例如,关于性别的调查项目答案只有两个:男、女,如果男=1,女=2,那么这个项目的答案幅度是1-2,不可能有3、4等数码。幅度检查就是要把那些超越幅度的错误找出来。第二种是检索输入信息相互之间的一致性,即对数码进行逻辑检查。逻辑检查主要是检查同一份问卷中,不同问题的答案是否相互矛盾,例如问卷的第4题是询问年龄,年龄的编码是这样的:
1-13岁=1;14-25岁=2;26-40岁=3;……第6题是询问婚姻状况:已婚=1,未婚=2。假如第4题的答案是1,那么第6题的答案应是2;如果第6题的答案是1的话,那么,不是第4题就是第6题的答案错了,逻辑检查可以找出答案的逻辑矛盾。
第三节单变量统计分析
一、集中趋势测量
集中趋势就是一组数据的代表值,它能说明一组数据的一部分全貌,即它们的典型情况。它用一个典型值代表变量所拥有的所有数据。这样一个典型值就称为集中趋势统计量,按处理方法不同可分为几类,主要包括众值、中位值、均值等等。
1.众值(众数),用犕表示
其意义为,在众多数值中,出现次数最多的一个数值,也称定类层次。
例如:2,3,5,5,5,6,6,7,9。
出现次数最多的是5,其犕=5。
2.中位值(中位数),用犕犱表示
其意义为,按大小顺序排列,处在一群数据中央位置的数值,也称定序层次。
例如:有9个人,他们的月工资分别如下:
47,42,50,51,92,112,71,83,108。
这样一群数据,首先必须要:
(1)作排列处理,从小到大排列。
42,47,50,51,71,83,92,108,112。
(2)求中央位置。
(3)求中位值⊥犱=71。
所以,对于定序变量而言,用中位值来表示集中趋势的统计量。
3.均值(平均数)
其也称均数或定距层次,是在定距和定比变量的测量层次中运用。
算术均数:一群数值的总和除以个案数目所得的结果,称为算术均数。
例如:调查10个核心家庭,每个家庭的子女数为1,1,1,2,2,2,2,2,3,3。
可用众值表示犕=2,中位值表示犕犱=2,但不是最好的方法。
这表示在这10个家庭中,每个家庭拥有子女数是1.9人。
4.各值优劣之比较
众值、中位值、算术均值哪一个最具有代表性呢,我们要对这三种数值的优劣作比较。
众值应用范围在定类变量,要求大略平均,一般用众数。但是,损失资料太多,而且可能出现双峰图(也称双众数),即常常会遭到数据集合中有几个数据同时符合众数定义的情形,这时众值也就失去了作为代表值的意义,对各种统计产生麻烦,因而不太用。当然,有些特殊情况下,也能用众值。
中位值对定序变量而言,求时方便,宜理解(求中央位置)。但是,组中位值计算一定要排列次序,所以运用时就受限制。而且最大的缺陷是对一些极端数字不敏感。如-474,2,18,35,2000,那么-474,2000对中位值均无影响。
同时,在两端的数目不明确的开放端中,仍可以求中数,但不能求平均数。
算术均数,或均值,用于定距(定比),资料利用率比较高,常被认为是最佳集中趋势度量值。但是,由于每个数据都加入计算,平均数极易受极端数影响。
如,某个由5人组成的座谈会,其平均年龄为25岁。其中,4人是学生,1人是教授。学生全部是16岁,教授年龄为61岁,显然教授的年龄对整个平均年龄发生了显着的影响。只有取中位值或众值才具有代表性。
二、离散程度测量
集中趋势(众值、中位值、均值)表示着一组数据的典型情况,但在实际上,各个数据之间仍然存在着差异,它不足以说明和概括这组数据的全貌。