点值估计,就是以一个最适当的样本统计值来代表总体的参数值。例如,我们要知道某地的青年人有多少是赞成一胎化的政策,可以从该地区抽取一个青年人的样本,假定发现样本中有60%是赞成,我们便说:整个地区约有60%的青年赞成一胎化的政策。又如,要知道该地区的青年人的平均收入,我们就以样本的均值作为估计值。一般来说,如果样本越大和抽样的方法越严谨,这种估计方法越可信。无论如何,抽样误差是难免的,点值估计法的可信程度是多少很难知道。社会研究,通常是采用间距估计法。
所谓间距估计,就是以两个数值之间的间距来估计参数值。至于间距的大小,就要取决于我们在估计时所要求的可信程度是多少。在样本大小相同的情况下,如果要求的可信度越大,则间距就会越大。这个间距,通常称为“可信间距”。例如,从样本中算出有60%的青年赞成一胎化,在估计总体中的百分率时,如果所要求的可信程度是95%,则可信间距就是介于55%与65%这两个数值之间。换言之,我们的估计是:总体中赞成一胎化的比率是介于55%与65%之间;这个估计的可信程度是95%。假定所要求的可信度改为99%,则可信间距便要扩大如介于53%与67%之间。间距的大小与可信度的高低成正比,这是不难理解的:在估计时所用的间距如果很小,错误的机会当然较大,可信度自然较低。
2.均值的间距估计如果所要求的可信度是95%,可用下面的公式来计算可信间距:
如果所要求的可信度是99%,则公式如下:
其中,X是样本的均值,S是标准误差,S是样本的标准差,n是随机样本的大小。举例来说,我们要估计某地区青年人的平均工资(犕),所抽取的一个样本是:n=225人,X=430元,S=105。如果要求的可信度是95%,则:
因此,我们的估计是:全区青年人的平均工资是介于416.28元和443.72元之间;这个估计的可信度是95%,即只有5%的错误可能性。
在上例中,倘若所要求的可信度提高为99%,则:
可信间距的大小与样本的大小是成反比的。样本越大,其代表性一般是越大,因此在估计时就可用较小的间距。换言之,在固定可信度以后,只要将样本加大,就可以得到较小的间距,使我们的估计更加精密。
3.百分率(或比例)的间距估计
如果要求95%的可信度,则计算可信间距的公式是:
如果要求99%的可信度,公式是:
其中,狆是样本中的比例(即百分率),S是抽样分布的标准误差,n是随机样本的大小。
举例来说,我们要估计某城镇有多少家庭是夫妻不和的。从一个随机样本(n=100)中知道有20%的家庭不和,即狆=20%=0.20。如果要求的可信度是95%,则:
由此可见,在该城镇的全部家庭中有12%至28%的家庭是夫妻不和的,而这个估计的可信度是95%。如果要求的可信度是99%,则:
可见有99%的机会是:该城镇的夫妻不和家庭所占的比例介于10%与30%之间。相对之下,也可见到99%的可信间距是大于95%的可信间距。
三、假设检验
假设检验是推论统计中常用的一种方法。它是对未知总体先作出某种假设,选取适当样本,根据样本观察的数据来检验原假设是否正确,以决定是接受还是拒绝原假设。
1.假设检验的基本概念与一般步骤
(1)研究假设与虚无假设。研究假设是经过探索性研究,根据抽样调查资料而作出的假设,用犎1表示;虚无假设是与研究假设相对立的假设,它是根据对某一总体特征的初步了解而作出的假设,用犎0表示。例如,经初步研究认为,某地老人的月均生活水平已超过若干年前的平均数300元,这就是研究假设。虚无假设则与此相反,认为老人现在的生活水平没有超过或等于以前的300元。
设立虚无假设是检验研究假设能否成立的必不可少的手段。上例中,如抽样调查的结果是,老人的月均生活水平已越过300元,那么还不能肯定研究假设正确。因为从总体中抽取样本,不可避免地存在误差,样本结果有可能是由抽样误差造成的。因此,要对研究假设作出肯定必须设法否定抽样误差。抽样误差是建立在总体内月均生活水平低于或等于300元基础之上的,即建立在虚无假设的基础之上,如果能够否定虚无假设,也就可以否定抽样误差,从而表明研究假设可能成立。
(2)否定域与显着水平。否定域是指在抽样分布中分属两端的能够否定虚无假设犎0的小区域。否定域的大小,是由显着水平决定的。显着水平则是指否定域的概率,是研究者根据抽样资料对统计假设作出不正确结论的冒险性程度。
显着水平用符号α表示,它可以视研究的需要而被规定在任意的水平上。当显着水平控制在一定限度以内,如取α=0.05、0.01等,便可确定否定域。
(3)一端检验和二端检验。在检验虚无假设犎0时,如果否定域在抽样分布的一端,称为一端检验;如果否定域在两端则称为两端检验,即α=α1+α2。决定选用一端还是二端检验,取决于研究假设犎1的方向。如犎1未指明方向(如赞成人数≠反对人数),用二端检验;如已知犎1的方向(如赞成人数>反对人数,或赞成人数<反对人数),则用一端检验。
(4)甲种错误和乙种错误
所谓甲种错误是指在推断统计中把一个本来是正确的虚无假设给否定了。
所谓乙种错误是把一个本来是错误的虚无假设给接受了。发生甲种错误的概率就是显着水平α。显着水平既然是否定犎0概率,当然也是甲种错误的概率。如果α=0.01,则甲种错误的概率也是0.01。乙种错误常用β表示,它与α成反比。它表明,甲种错误越小,乙种错误越大,甲种错误越大,乙种错误越小,两种错误是一对矛盾。只要以样本为依据进行统计推断,就存在发生两种错误的风险。要使甲、乙两种错误得到某种程度的协调,两类错误的概率同时减小,可行的办法是增加样本容量。因此,社会研究中一般都采用大样本的统计,并通常选用0.05、0.01、0.001作为假设检验的显着水平。
(5)假设检验的一般步骤
假设检验的一般步骤如下:
①建立研究假设犎1和虚无假设犎0;
②规定显着水平α,查表得到否定域的临界值;
③由样本资料计算出检验统计量的具体数值(统计值);
④将实际计算的检验用的统计值与临界值比较,决定虚无假设的取舍。
2.平均数的检验
对总体单值平均数的检验和下文所要介绍的两平均数之差的检验,在大样本情况下,用Z检验法,在小样本中则用狋检验法。一般而言,当n≥30时,为大样本。当n<30时,为小样本。Z检验法常用的显着水平及其否定域如下:
[例]设某地随机抽取100户农户进行调查,测得人均承包收入X=738元,标准差S=56元,这是否说明该地农户人均承包收入在700元以上,试以0.05的显着水平加以检验。
解:建立研究假设和虚无假设。初步探索到研究假设犎1:μ0>700;则虚无假设犎0与之对立:μ0≤700。
此题指明了犎1的方向,所以采用一端检验,查Z表得到在0.05的显着水平上的否定域为Z≥1.65(一端),而用样本资料计算出的Z值为:
[例]设某校研究一种新的教学方法的效果。教改前,学生英语平均成绩为70分。教改后,抽取12名学生,经测定样本平均数为82分,标准差为12分。若以0.05的显着水平加以检验,μ=70分与X=82分之间是否存在显着差异而说明教学改革有无效果。
此题未指明犎1的方向,所以采用二端检验。又由于本题是小样本检验,故查狋分布数值表,当dJ=12-1=11时,得到α=0.05(α/2=0.025)显着水平上的否定域的临界值狋0.05≥2.201,而由样本资料计算的狋值为:
所以否定犎0。结论是该校英语教学实行教学改革有显着效果。
3.比例的检验
以Z值为例介绍比例的检验,Z值的计算公式为:
[例]某地区进行晚婚情况调查,若随机抽取初婚女子105人,测得其中42人为达到晚婚年龄后初婚女子。试以0.05的显着水平检验与4年前该地晚婚率32%相比,是否发生显着变化?