简单抽样经常使用统计上的“乱数表”,即“随机数表”[见本书附录统计用表(一)]。所谓随机数表,就是让每一个数字号码在表上出现的机会长期平均起来都是一样的。数字号码如果随便让它出现,会有一定的循环性,数学家用一套公式把这些数字一一列出,使它们出现时不会有循环性。
怎样使用“随机数表”?比如,你要从130个中抽出50个样本,编排号码就从001到130。你可以随意指出表上其中的一个同位数码,然后从这个数码向上、下或左、右走向(往哪个方向都可以,因机遇一样,但要固定向一个方向走),把走向经过的每组数目中三位数不超过130的写下来,直到抽满50个数码为止,这50个个案就是你要抽的样本。
简单随机抽样也称为单纯随机抽样,是指从总体n个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
简单随机抽样一般可采用掷硬币、掷骰子、抽签、查随机数表等办法抽取样本。在统计调查中,由于总体单位较多,前三种方法较少采用,主要运用后一种方法。
按照样本抽选时每个单位是否允许被重复抽中,简单随机抽样可分为重复抽样和不重复抽样两种。在抽样调查中,特别是社会经济的抽样调查中,一般是指不重复抽样。
简单随机抽样是其他抽样方法的基础,因为它在理论上最容易处理,而且当总体单位数n不太大时,实施起来并不困难。但在实际中,若n相当大时,简单随机抽样就不是很容易办到的。首先它要求有一个包含全部n个单位的抽样框;其次用这种抽样得到的样本单位较为分散,调查不容易实施。因此,在实际中直接采用简单随机抽样的并不多。
但是,简单抽样也有缺陷,按数字分配的研究对象不一定有代表性。虽然样本每分子机遇平等,但最后所得出的结果不一定相等,往往不能照顾各方面和各部分,很可能抽出的全是老年人或全是青年人,而不是老、中、青各有一定的比例。
二、等距抽样
等距抽样又称为机械抽样、系统任意抽样。这种方法就是依据构成总体中个案的出现顺序,排列起来,每隔k个单位抽一个单位作为样本,如逢十抽一,每隔七户抽一户等。其抽样步骤为:
1.按构成总体中个案的出现顺序排列。
2.计算抽样间距,即k值。
k值指每隔多少个抽一个,计算公式是:
k=n(总体个案数)/n(样本个案数)
3.确定起抽号,即k。起抽号k可使用“随机数表”在抽样间距内确定。
4.从起抽号k开始,按抽样间距(k)抽取样本,直到抽满研究确定的样本数。即k、k+k、k+2k…k+(Sn-1)k。其中Sn为样本序号。
与简单抽样相比,等距抽样易于实施,工作量小;而且样本在总体中分布更为均匀,抽样误差小于简单抽样。因此,等距抽样成为实际中广泛应用的一种抽样方法。
这种方法的一个弱点就是容易出现周期性偏差。为了防止这种情况,我们可以取一定数量的样本以后,打乱原来的秩序,建立新的秩序,以纠正周期性偏差。
根据总体单位排列方法,等距抽样的单位排列可分为三类:按有关标志排队、按无关标志排队以及介于按有关标志排队和按无关标志排队之间的按自然状态排列。
按照具体实施等距抽样的作法,等距抽样可分为:直线等距抽样、对称等距抽样和循环等距抽样三种。
等距抽样的最主要优点是简便易行,且当对总体结构有一定了解时,充分利用已有信息对总体单位进行排队后再抽样,则可提高抽样效率。
三、分层抽样
分层抽样也称类型抽样、分类抽样或分层定比任意抽样等。
分层抽样是将总体各单位先按主要标志分组,然后在各组中采用简单或机械抽样方式,确定所要抽取的单位。分层抽样实质上是科学分组和抽样原理的结合。
要确定抽样的数目,一般有两种方法:
(1)定比:就是对各个分层一律使用同一个抽样比例。
抽样比例J的计算公式为:
J=n(样本个案数)/n(总体个案数)
(2)异比:如遇其中某一层人的数量特别少,按统一比例取样所得的个案数量太少以致会影响这一层抽样个案的分析时,则这一层可采用比其他层较大的取样比例,这叫做异比抽样的方法。
如图51所示,三层中皆不相同,但每一层之内部每一单元却相同,换言之,每一群体(group)所含之要素,在其内部虽然是“同质”的(homogeneous),但在各群体间却是“异质”的(heterogeneous),这样,将样本分为几个层抽出时,其群体称为层(strata),被分的层称为层化(stratification),经过这种程序所选的样本为分层抽样(stratifiedsample)。
分层的作用主要有三:一是为了工作的方便和研究目的的需要;二是为了提高抽样的精度;三是为了在一定精度的要求下,减少样本的单位数以节约调查费用。因此,分层抽样是应用上最为普遍的抽样技术之一。
按照各层之间的抽样比是否相同,分层抽样可分为等比例分层抽样与非等比例分层抽样。
实际上,分层抽样是科学分组与抽样原理的有机结合,前者是划分出性质比较接近的层,以减少标志值之间的变异程度;后者是按照抽样原理抽选样本。因此,分层抽样一般比简单随机抽样和等距抽样更为精确,能够通过对较少的样本进行调查,得到比较准确的推断结果,特别是当总体数目较大、内部结构复杂时,分层抽样常能取得令人满意的效果。
四、整群抽样
整群抽样也称聚类抽样、集团抽样。整群抽样是首先将总体中各单位归并成若干个互不交叉、互不重复的集合,我们称之为群;然后以群为抽样单位抽取样本的一种抽样方式。
上述三种抽样调查方式都是以总体中的各个个体为单位进行抽样调查。在实际工作中,当总体特别大时,有时不是一个个单位(个案)抽选,而是整群(组)、整批地抽选,对被抽选的各群(组)中的所有个案毫无遗漏地全部进行调查,这样的抽样组织方式叫做整群随机抽样。
如我们从几所中学任意地选几个班级,以班为一整群,对这几个班所有学生进行整体调查。这种方式往往用于同质性比较强的总体。分层抽样中,层的划分依据是层间异质性高、层内尽可能同质的原则。整群抽样,因仅抽取某几个子群作为整体的代表,如果子群间差异显着,而每个子群内同质性很高,则抽出的几个子群显然无法代表总体。因此,整群抽样的分群原则与分层抽样不同,它是使群间异质性低,而群内异质性高。所以,分层抽样适用于界质分明的总体,而整群抽样适用于界质不清的总体。
整群抽样特别适用于缺乏总体单位的抽样框。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
整群抽样的优点是实施方便、节省经费;缺点是往往由于不同群之间的差异较大,由此而引起的抽样误差往往大于简单随机抽样。
五、多段抽样
多段抽样,也称为多级抽样,是指在抽取样本时,分为两个及两个以上的阶段从总体中抽取样本的一种抽样方式。其具体操作过程是:第一阶段,将总体分为若干个一级抽样单位,从中抽选若干个一级抽样单位入样;第二阶段,将入样的每个一级单位分成若干个二级抽样单位,从入样的每个一级单位中各抽选若干个二级抽样单位入样……
这种就是从集体抽样到个体抽样,分成若干阶段逐步地进行。如对某县200000人的抽样可分为三段进行:
县→从中抽取→8个乡→从中抽取→15个村→从中抽取→500人
整个过程的各段抽样,都可采取简单的或分层的抽样法。在上例具体的过程中有三段,则可称为三段抽样。也可分五段抽样:
华东→省→县→乡→村→农民
这种方法,在大规模调查时非用它不可。但是,由于每段抽样都会有误差,经过多段抽样,最后抽出来的样本误差就会比较大,这是多段抽样的缺点。依此类推,直到获得最终样本。
多段抽样区别于分层抽样,也区别于整群抽样,其优点在于适用于抽样调查的面特别广,没有一个包括所有总体单位的抽样框,或总体范围太大,无法直接抽取样本等情况,可以相对节省调查费用。其主要缺点是抽样时较为麻烦,而且从样本对总体的估计比较复杂。
六、PPS抽样
PPS抽样(samplingwithProbabilityProportionatetoSize)是一种不等概率抽样,即“概率与元素的规模大小成比例的抽样”方法。
PPS抽样就是将总体按一种准确的标准划分出容量不等的、具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。特点是总体中含量大的部分被抽中的概率也大,可以提高样本的代表性。
总结我们以上介绍的抽样方法有一个共同的特点,即总体中的每一个元素都具有同等的被抽中的概率。如果总体中每个元素的“大小”基本相同,或者每个元素在总体中的地位或重要性差不多,则这种基于同等概率的抽样是合适的。
但是,当元素的大小不同,或元素在总体中地位不同时,则需采用不等概率抽样的方法。比如,从某区几百家企业中抽取20家企业进行调查时,一个有着几十万职工的大型企业与一个只有几十个人的小企业所占的地位显然是不同的。如果仍用等概率抽样方法,样本的代表性和精度显然都比较差。这时,就需要用PPS抽样法。
用一个例子来说明PPS抽样。在中国科协组织的“2001中国公众科学素养调查”中就采用了PPS抽样法进行抽样。我们选取从区抽至街道乡镇的第二阶样本的方法来说明如何进行PPS抽样。从城市的区抽取第二阶样本(街道或乡镇)的方法为:在抽取街道的时候,直接将选中区内的所有街道汇总在一起,按照PPS抽样步骤抽取要求的街道数即可。例如,在第一阶抽样中,抽中某城市的区n,它管辖的街道分布如表51,该区应抽取两个街道,具体的操作方法如下:
1.根据有关部门的统计资料,查处n区各街道的常住人口数,并计算汇总人口,结果如表51。
2.用计算器产生两个随机数,分别为0.367和0.697。
3.把0.367和0.697分别乘以n区街道的总人口数T。