理解抽样推断的含义及特点
深刻理解抽样误差产生的原因
对抽样误差、抽样平均误差、抽样极限误差加以区别
了解各种抽样组织形式的特点
重点掌握简单随机抽样组织形式的区间估计方法
掌握必要样本单位数的确定方法
一、抽样推断的含义
(一)抽样推断的特点
抽样推断又称为抽样估计,它是在抽样调查的基础上,利用样本实际资料计算样本指标,并据以推算总体相应数量特征的一种统计调查方式。例如,从全国所有股份制企业中,抽取一部分企业,详细调查其生产经营状况,根据这一部分企业的调查资料,来推算所有股份制企业的生产经营状况,这就属于抽样推断。
抽样推断有以下几个特点:
1.按随机原则从总体中抽取调查单位。所谓随机原则是指在抽取调查单位时,总体中每个单位都有同等被抽中的机会,完全排除了人为主观意识的影响,哪个单位抽中与否,纯粹是随机的、偶然的。按随机原则抽取调查单位是进行抽样推断的基本要求。
2.根据被抽取的调查单位,计算各种指标,并对总体的指标作出估计。
3.抽样推断中的抽样误差可以事先计算并加以控制,从而保证抽样推断的结论符合预定的精确度和可靠度要求。
(二)抽样推断的作用
1.对某些不可能进行全面调查而又需要了解全面情况的社会经济现象,可以采用抽样推断方式。例如,对产品的质量进行检验,其中对某些物品的质量检验是属于破坏性或消耗性的,譬如对灯泡使用寿命的检验,对材料抗拉强度的检验,对饮料、罐头等食品的质量检验等,一经检验就将消耗或破坏它们的使用价值。在这种情况下,只能采用抽样推断方式。另外,对于无限总体也不可能进行全面调查,只能采用抽样推断方式。
2.对于某些不必要或在经济上不允许经常采用全面调查的社会经济现象,最适宜采用抽样推断方式。例如,对于人口数量的调查,对于城乡居民的家计调查,对于旅游客源的调查,对于水、森林、矿藏等资源的调查等。虽然有些调查理论上可以采用全面调查,但由于总体涉及的范围较大,采用全面调查要花费大量的人力、物力、财力和时间,有时没有必要,有时条件也不允许。这时采用抽样推断方式,便可以同时达到节省人力、物力、财力和时间,并获得全面调查效果的目的。
3.对于需要及时了解情况的现象,也经常采用抽样推断方式。因为全面调查浪费人力、物力和财力,资料也不易及时取得,而抽样推断方式不仅节省人力、资金,且需要的时间短,方式灵活,能够及时满足了解情况的需要。例如,为了及时对旅游者的旅游目的、停留天数、购物等情况进行调查,需在旅游者启程之前和旅游过程中进行调查,就应采用抽样推断方式,以便及时获取所需的统计资料。
4.对全面调查的资料进行评价和修正。全面调查由于范围广、工作量大、参加的人员多,发生登记性误差的可能性就大。因此,为了保证全面调查资料的准确性,检验全面调查资料的质量,在全面调查之后,一般都要进行抽样推断。在总体中再抽取一部分单位重新调查,然后将两次调查的资料进行比较,计算出差错率,并据此对全面调查的资料加以修正。例如,我国人口普查规定,在人口普查工作完毕后,还要按照规定的调查方案抽取若干个地区进行复查,根据抽样调查的资料,计算人口普查的重复和遗漏的差错率,根据这个比率去修正普查资料,从而保证人口普查数据的质量。
5.抽样推断还可以用于工业生产过程中的质量控制。对于成批或大量连续生产的工业产品,在其生产过程中采用抽样推断,可以检查生产过程是否有异常情况,并及时提供有关信息,有效地实施产品质量控制。这种质量控制在产品质量检验中的作用比事后检验要优越得多,它可以通过随时跟踪、抽查来保证质量。
二、抽样的基本概念
(一)总体和样本
总体又称全及总体。它是根据研究目的,由全部调查单位所组成的集合体。总体的单位数通常都是很大的,甚至是无限的,这样才有必要组织抽样调查,进行抽样推断。总体单位数一般用符号N表示。
样本又称子样。它是从总体中随机抽取出来的部分调查单位所组成的集合体。样本的单位数是有限的。样本单位数一般用符号n表示,也称样本容量。
对于某一特定研究问题来说,作为推断对象的总体是确定的,而且是唯一的。但由于从一个总体中可以抽取许多个样本,所以作为观察对象的样本,不是唯一的,而是可变的。明白这一点对于理解抽样推断原理是很重要的。
(二)总体指标和样本指标
总体指标又称参数。它是根据总体各单位的标志表现计算的综合指标。
对于总体中的数量标志,可以计算的总体指标有总体平均数X、总体方差σ2(或总体标准差σ)。
设总体变量X的取值为:X1,X2……,XN,则
X或X
σ2或σ2
对于总体中的品质标志,由于各单位品质标志不能用数量来表示,因此,可以计算的总体指标有总体成数XP、总体成数方差σ2P(或总体成数标准差σP)。
设P表示总体中具有某种性质的单位数在总体单位数中所占的比重,Q表示总体中不具有某种性质的单位数在总体单位数中所占的比重。在总体N个单位中,有N1个单位具有某种性质,N0个单位不具有某种性质,NN1+N0。则
P,Q1-P
如果总体中的品质表现只有“是”、“非”两种。例如,产品质量的标志表现为合格和不合格,人口性别的标志表现为男性和女性,则可以把“是”的标志表现表示为1,而“非”的标志表现表示为0。那么成数P就可以视为(0,1)分布的相对数,并可以计算相应的方差(或标准差)。其计算公式为
XPP
σ2P
P2Q+Q2PPQ(P+Q)P(1-P)
例如,某批零件的合格率P80%,则
XP80%,σ2p80%×(1-80%)16%
在抽样推断中,总体指标的意义和计算方法是明确的,但总体指标的具体数值事先是未知的,需要用样本指标来估计它。
样本指标又称统计量。它是根据样本各单位的标志表现计算的用来估计总体指标的综合指标。可以计算的样本指标有样本平均数x、样本方差s2和样本成数P等。
设样本变量x的取值为x1,x2……,xn,则
x或x
s2或s2
xpp
s2pp(1-p)
在抽样推断中,样本指标的计算方法是确定的,但它的取值随着样本的不同,有不同的样本变量。所以,样本指标本身是随机变量,用它作为总体指标的估计值,有时误差大些,有时误差小些;有时产生正误差,有时产生负误差。
三、抽样方法
在抽样调查中,从总体中抽取样本单位的方法有两种:重复抽样和不重复抽样。
(一)重复抽样
重复抽样也称重置抽样、放回抽样、回置抽样等。它是指从总体N个单位中随机抽取容量为n的样本时,每次抽取一个单位,把结果登记下来后,重新放回,再从总体中抽取下一个样本单位。在这种抽样方式中,同一单位可能有被重复抽中的机会。可见,重复抽样的总体单位在各次抽取中都是不变的,每个单位中选的机会在每次抽取中都是均等的。
用重复抽样的方法从总体N个单位中抽取n个单位组成样本,可能得到的样本总数为Nn个。
例如,总体为A、B、C三名技术人员,用重复抽样的方法从中随机抽取两名构成样本。首先从三人中抽取一人,登记后放回,然后仍从这三人中再抽取一人,将两次抽取的结果构成样本,这就是重复抽样。在重复抽样条件下,全部可能抽取的样本数目为32=9个,具体样本组合。
(二)不重复抽样
不重复抽样也称不重置抽样、不放回抽样、不回置抽样等。它是指从总体N个单位中随机抽取容量为n的样本时,每次抽取一个单位后,不再放回去,下一次则从剩下的总体单位中继续抽取,如此反复,最终构成一个样本。也就是说,每个总体单位至多只能被抽中一次,所以从总体中每抽取一次,总体就少一个单位。因此,先后抽出来的各个单位被抽中的机会是不相等的。前例中,用不重复抽样的方法从中抽取两个单位构成样本,则全部可能抽取的样本数目为3×2=6(个)。
用不重复抽样的方法从总体N个单位中抽取n个单位组成样本,可能得到的样本总数为AnN,不考虑顺序的组合数为CnN。
可见,在相同样本容量的要求下,不重复抽样可能得到的样本个数比重复抽样可能得到的样本个数少。当采用不重复抽样而全及总体所包含的单位数又不多时,越到后来,留在总体中的单位就越少,被抽中的机会就越大。不过当全及总体单位数很多而样本总体单位数所占的比重很小时,则对先后抽出来的各个单位被抽中的机会影响不大。由于不重复抽样简便易行,所以在实际工作中经常被采用。