一、抽样误差的含义
在抽样推断中,用样本指标推断总体指标,总会存在一定的误差,其误差来源主要有两个方面:
(一)登记性误差
即在调查和整理资料的过程中,由于主客观因素的影响而引起的误差,如在登记的过程中由于疏忽而将3误写为8;在计算合计的过程中所造成的计算错误等。
(二)代表性误差
即由于样本的结构情况不足以代表总体特征而导致的误差。代表性误差的产生又有两种情况:
一是违反了抽样推断的随机原则,如调查者有意地多选较好的单位或多选较差的单位来进行调查,这样计算出来的样本指标必然出现偏高或偏低的情况,造成系统性误差,也称为偏差。
二是虽然遵守了抽样推断的随机原则,但由于从总体中抽取样本时有多种多样的可能,当取得一个样本时,只要被抽中样本的内部结构与被研究总体的结构有所出入,就会出现或大或小的偶然性的代表性误差,也称为随机误差。
系统性误差和登记性误差都是由于抽样工作组织不好而导致的,应该采取预防措施避免发生。而偶然性的代表性误差是无法消除的。抽样误差就是指这种偶然性的代表性误差,即按随机原则抽样时,单纯由于不同的随机样本得出不同的估计量而产生的误差。
抽样误差是抽样推断所固有的,虽然它无法避免,但可以运用大数定律的数学公式加以精确地计算,确定其具体的数量界限,并通过抽样设计加以控制。所以这种抽样误差也称为可控制误差。
二、抽样平均误差
(一)抽样平均误差的含义
抽样误差描述了样本指标与总体指标之间的离差绝对数,在用样本指标估计相应的总体指标时,它可以反映估计的准确程度。但是由于抽样误差是随机变量,具有取值的多样性和不确定性的特点,因而就不能以它的某一个样本的具体误差数值来代表所有样本与总体之间的平均误差情况,应该用抽样平均误差来反映抽样误差平均水平。
所谓抽样平均误差,就是所有可能出现的样本指标(样本平均数或成数)的标准差,也可以理解为所有的样本指标与总体指标之间的平均离差。我们所说的抽样误差可以事先计算和控制,就是针对抽样平均误差而言的。抽样平均误差是用样本指标推断总体指标时,计算误差范围的基础。
抽样平均误差的计算,与抽样方法和抽样组织形式有直接关系,不同的抽样方法和抽样组织形式计算抽样平均误差的公式是不同的。
(二)抽样平均误差的计算
根据抽样平均误差的含义,我们通常用样本平均数(或成数)的标准差作为抽样误差一般水平的尺度。按照标准差的一般意义,样本平均数(或成数)的标准差是按样本平均数(或成数)与其平均数的离差平方和计算的,但由于样本平均数的平均数等于总体平均数,样本成数的平均数等于总体成数,所以样本指标的标准差恰好反映了样本指标和总体指标的平均离差程度。则抽样平均误差的计算公式如下:
样本平均数的抽样平均误差计算公式为
μx
式中μx――样本平均数的抽样平均误差;
x――样本平均数;
X――总体平均数;
M――全部可能的样本数目。
样本成数的抽样平均误差计算公式为
μp
式中μp――样本成数的抽样平均误差;
p――样本成数;
P――总体成数;
M――全部可能的样本数目。
这两个公式表明了抽样平均误差的意义。但是对于要研究的总体,我们并不知道总体平均数和总体成数,而且也无法计算全部样本的样本指标值,所以按上述公式来计算抽样平均误差实际上是不可能的。所以在实际工作中,通常只需从总体中抽取一个样本,这样就可以根据总体标准差和样本单位数的关系来计算。
1.重复抽样条件下抽样平均误差的计算
数理统计可以证明:在重复抽样条件下,抽样平均误差与总体标准差成正比,与样本单位数的平方根成反比。故在已知总体标准差的条件下,计算样本平均数的抽样平均误差计算公式为
μx
式中σ――总体标准差;
n――样本单位数。
在大样本(n>30)下,如果没有总体标准差σ的资料,可用样本标准差代替,其计算公式为
μx
相应地,样本成数的抽样平均误差计算公式为
μp
同样,在大样本下,如果P未知,可用样本成数p来代替,其计算公式为
μp
总体成数方差还有一个特点,就是它的最大值是0.5×0.50.25,也就是说,当两类总体单位各占一半时,它的变异程度最大,方差为25%,标准差则为50%。因此,在总体成数方差未知时,可用其最大值来代替,这样会使计算出来的抽样平均误差偏大一些,一般而言这对推断认识有益而无害。
2.不重复抽样条件下抽样平均误差的计算
不重复抽样条件下抽样平均误差的计算公式为
μx1-
μp1-
式中N――总体单位数;
――抽样单位占总体的比重;
不重复抽样的平均误差和重复抽样的平均误差公式,两者相差的因子(1-)永远小于1。在不重复抽样下,抽中的单位不再放回,总体单位数逐渐减少,余下的每个单位被抽中的机会就会增大,所以不重复抽样的抽样平均误差小于重复抽样的抽样平均误差,这就是用因子(1-)作为调整系数来修正原式的道理。但在抽中单位占全体单位的比重很小时,这个因子接近于1,对于计算抽样平均误差所起的作用不大。因而实际工作中不重复抽样有时仍按重复抽样的公式计算。
抽样平均误差的计算,在抽样调查中占有相当重要的地位。抽样调查的优点在于它能计算出抽样平均误差,且以抽样平均误差作为用样本指标推断总体指标的重要补充指标。
【例1】设某总体由A、B、C三名技术人员组成,他们的小时工资分别为5元、7元和9元。现从该总体中随机抽取2人,求小时工资额的样本平均数与抽样平均误差。
根据已知资料可得
总体平均数X7(元)
总体标准差σ1.63(元)
据此计算:
样本平均数的平均数x7(元)
抽样平均误差μx1.15(元)
如果按重复抽样条件下的抽样平均误差计算公式也可得
μx1.15(元)
样本平均数的平均数x7(元)
抽样平均误差μx0.82(元)
如果按不重复抽样条件下的抽样平均误差计算公式也可得
μx1-××1-0.82(元)
从以上计算过程可以看出如下几种基本关系:
第一,样本平均数的平均数x等于总体平均数X。因而抽样平均误差实质上就是样本平均数(也称为抽样平均数)的标准差,所以也称为抽样标准误差。
第二,样本平均数的标准差(即抽样平均误差)比总体标准差小得多,仅为总体标准差的。例如,我们调查研究某县粮食亩产量后,就会发现各地指标值有高有低,相差悬殊。如果设定全县亩产标准差σ达到80公斤,我们随机抽取400亩来求平均亩产量,那么平均亩产量的差异就显著减少。而且平均亩产量的标准差(抽样平均误差)只及全县亩产量(抽样标准差)离差的,即μx4(公斤)。这意味着以样本平均亩产量代表全县粮食亩产水平,要比各亩的亩产水平更具代表性。
第三,可以通过调整样本单位数n来控制抽样平均误差。例如,将样本单位数扩大4倍,则抽样平均误差就缩小一半;而抽样平均误差减少20%,则样本单位数就需要扩大为原来的1.56倍。即
μxμ′x?μx
nn′1.56n
第四,不重复抽样的抽样平均误差比重复抽样的抽样平均误差要小。例如,在上例中,不重复抽样的抽样平均误差0.82元比重复抽样条件下的抽样平均误差1.15小。所以如果条件允许的情况下应采用不重复抽样进行调查研究,提高调查研究资料的准确性。
在实际工作中,当计算抽样平均误差时,我们通常得不到总体标准差的数值,要用样本标准差s来代替总体标准差σ,样本标准差计算公式为
s
式中x――样本变量;
x――样本平均数;
n-1――样本自由度。
因为s是在估计x的基础上进行第二次估计,所以失去一个自由度。用这一公式计算s2,才是总体σ2的无偏估计。但在大样本的情况下,我们一般也可以用样本标准差的一般公式即以n作为分母来计算,以代替总体标准差。
【例2】对某市1500名消费者进行购物调查,抽取5%的消费者作为样本,调查所得的资料:样本单位数n为75人,平均每人购物消费支出为434.4元,购物消费的标准差s为46.8元,这样:
μ≈5.38(元)
这就说明样本平均每人购物消费支出为434.4元,它与总体平均每人购物消费支出的平均误差为5.38元。
【例3】对某洗浴中心购进的浴巾质量进行检验,抽取200条,其中不合格产品为4条,要求计算样本成数的抽样平均误差。
有关计算如下:
p2%
μp≈0.01或1%
即样本成数的抽样平均误差为1%。
抽样平均误差的计算,在抽样调查中占有相当重要的地位。抽样调查的优点在于它能计算出抽样平均误差,且以抽样平均误差作为用样本指标推断总体指标的重要补充指标。
三、影响抽样平均误差的因素
影响抽样平均误差的因素主要有:
(一)样本单位数的多少
在其他条件不变的情况下,样本单位数愈多,抽样误差就愈小;反之,样本单位数愈少,则抽样误差就愈大。样本单位数越大,样本就越能反映总体的数量特征,如果样本单位数扩大到接近总体单位数时,抽样调查也就接近于全面调查,抽样误差就缩小到几乎完全消失的程度。
(二)总体被研究标志的变异程度
在其他条件不变的情况下,总体各单位标志值变异程度愈小,则抽样误差也愈小,抽样误差和总体变异程度成正比变化。这是因为总体变异程度小,表示总体各单位标志值之间的差异小,则样本指标与总体指标之间的差异也就小。如果总体各单位标志值相等,则标志变异程度等于0,样本指标就完全等于总体指标,抽样误差也就不存在了。
(三)抽样的组织形式和抽样方法
在其他条件不变的情况下,不重复抽样下的样本比重复抽样下的样本代表性强,其抽样误差相应也要小。在不同的抽样组织形式下,抽样误差也不同。
了解影响抽样误差的因素,对于控制和分析抽样误差十分重要。在上述影响抽样误差的三个因素中,标志变异程度是客观存在的因素,是调查者无法控制的,但样本单位数、抽样方法及抽样的组织形式却是调查者能够选择和控制的。因此,在实际工作中,应当根据研究的目的和具体情况,做好抽样设计和实施工作,以获得经济有效的抽样效果。
B.C. D.2
四、抽样极限误差
(一)抽样极限误差的含义
抽样极限误差是从另一个角度来考虑抽样误差问题的。用样本指标推断总体指标时,要想达到完全准确和毫无误差,几乎是不可能的。样本指标和总体指标之间总会有一定的差距,所以在估计总体指标时就必须同时考虑误差的大小。我们不希望误差太大,因为这会影响样本资料的价值。误差愈大,样本资料的价值便愈小,当误差超过一定限度时,样本资料也就毫无价值了。所以在进行抽样推断时,应该根据所研究对象的变异程度和分析任务的需要确定允许的误差范围,在这个范围内的数字就算是有效的。这就是抽样极限误差的问题。
抽样极限误差是指样本指标和总体指标之间抽样误差的可能范围。由于总体指标是一个确定的数,而样本指标则是围绕着总体指标左右变动的量,它与总体指标可能产生正离差,也可能产生负离差,样本指标变动的上限或下限与总体指标之差的绝对值就可以表示抽样误差的可能范围。
设Δ、Δp分别表示样本平均数的抽样极限误差和样本成数的抽样极限误差,则有:
-|≤Δ
p-P|≤Δp
上面的不等式可以变换为下列不等式关系:
-Δ≤≤+Δ
P-Δp≤p≤P+Δp
上面第一式表明样本平均数是以总体平均数为中心,在-Δ至+Δ之间变动的,区间[-Δ,+Δ]称为样本平均数的估计区间,区间的长度为2Δ,在这个区间内样本平均数和总体平均数之间的绝对离差不超过Δ。同样,上面第二式表明,样本成数是以总体成数P为中心,在P-Δp至P+Δp之间变动的,在[P-Δp,P+Δp]区间内样本成数与总体成数的绝对离差不超过Δp。
由于总体平均数和总体成数是未知的,它需要用实测的样本平均数和样本成数来估计,因而抽样极限误差的实际意义是希望估计区间±Δ能以一定的可靠程度覆盖总体平均数,p±Δp能以一定的可靠程度覆盖总体成数P,因而上面的不等式应变换为
-Δ≤≤+Δ
p-Δp≤P≤p+Δp
(二)抽样极限误差的计算
基于概率估计的要求,抽样极限误差通常需要以抽样平均误差μ或μp为标准单位来衡量。把抽样极限误差Δ或Δp分别除以μ或μp,得到相对数t,它表示误差范围为抽样平均误差的若干倍,t是测量估计可靠程度的一个参数,称为抽样误差的概率度。
t或Δtμ
t或Δptμp
抽样估计的概率度是表明样本指标和总体指标的误差不超过一定范围的概率保证程度。由于样本指标随着样本的变动而变动,它本身是一个随机变量,因而样本指标和总体指标的误差仍然是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的概率保证。因此,就有必要计算样本指标落在一定区间范围内的概率,这种概率称为抽样估计的概率保证程度。
根据抽样极限误差的基本公式Δtμ得出,概率度t的大小要根据对推断结果要求的把握程度来确定,即根据概率保证程度的大小来确定。概率论和数理统计证明,概率度t与概率保证程度F(t)之间存在着一定的函数关系,给定t值,就可以计算出F(t)来;相反,给出一定的概率保证程度F(t),则可以根据总体的分布,获得对应的t值。
在实际应用中,因为我们所研究的总体大部分为正态总体,对于正态总体而言,为了应用的方便编有《正态概率表》以供使用。根据《正态概率表》,已知概率度t可查得相应的概率保证程度F(t);相反,已知概率保证程度F(t)也可查得相应的概率度t。现将几个常用的对应数值列于。
从抽样极限误差的计算公式来看,抽样极限误差Δ与概率度t和抽样平均误差μ三者之间存在如下关系:
1.在μ值保持不变的情况下,增大t值,抽样极限误差Δ也随之扩大,这时估计的精确度将降低;反之,要提高估计的精确度,就得缩小t值,此时概率保证程度也会相应降低。
2.在t值保持不变的情况下,如果μ值小,则抽样极限误差Δ就小,估计的精确度就高;反之,如果μ值大,抽样极限误差Δ就大,估计的精确度就低。
由此可见,估计的精确度与概率保证程度是一对矛盾,进行抽样估计时必须在两者之间进行慎重的选择。