一、简单随机抽样
简单随机抽样又称纯随机抽样。它对总体中的所有单位不进行任何分组、排队,而是完全随机地直接从总体N个单位中抽取n个单位,作为一个样本进行调查。在抽样中保证总体中每个单位都有同等被抽中的机会。
简单随机抽样是抽样中最基本、最单纯的组织形式,它适用于均匀总体,即具有某种特征的单位均匀地分布于总体的各个部分,使总体的各个部分都是同等分布的。
获得简单随机样本的具体做法主要有两种:
(一)抽签法
抽签法就是将总体各单位编号,以抽签的方式从中任意抽取所需样本单位的方法。
(二)查随机数表法
所谓随机数表是指含有一系列组别的随机数字的表格。表中数字的出现及其排列是随机的。查随机数表时,可以竖查、横查、顺查、逆查;可以用每组数字左边的头几位数字,也可以用其右边的后几位数字,还可以用中间的某几位数字。这些都需要事先定好。但一经决定采用某一种具体做法,就必须保证对整个样本的抽取完全遵从同一规则。
简单随机抽样在理论上最符合随机原则,但在实际应用中有很大的局限性:
第一,无论用抽签法还是用查随机数表法取样,均需对总体各个单位逐一编号。而抽样推断中的总体单位数很多,编号查号的工作量很大。
第二,当总体各单位标志变异程度较大时,简单随机抽样的代表性就比较差。
第三,对某些事物根本无法进行简单随机抽样,如对正在连续生产的大量产品进行质量检验,就不可能对全部产品进行编号抽检。
因此简单随机抽样适用于所调查的总体单位数不多且各单位标志变异程度较小的情况。
二、类型抽样
类型抽样亦称分类抽样或分层抽样。它是先将总体各单位按主要相关标志分组(或分类),然后在各组(或各类)中再按随机原则抽取样本单位的组织形式。例如,在进行城市职工家庭旅游消费支出抽样调查时,首先把职工按所属国民经济部门分类,然后再在各部门中抽取若干个调查户;再如,进行星级宾馆入住情况调查时,先将各宾馆按星级标准分为五星、四星、三星、二星和一星五类,然后再在各类宾馆中抽取若干个调查单位。
类型抽样实质上是分组法和随机抽样法相结合的产物。先划分出性质不同的各个组,以减少组内标志值之间的变异程度;然后按照随机原则,从各组中抽取调查单位。所以,类型抽样所抽取的样本代表性较高,抽样误差小,能够以较少的样本单位数获得比较准确的推断结果。特别是当总体各单位标志值相差很大,各组间标志值变异程度很大时,类型抽样则更为优越。
经过划类分组后,确定各类型组样本单位数一般有两种方法:
第一,不等比例抽样。即各类型组所抽取的单位数,按各类型组标志值的变异程度来确定,变异程度大则多抽一些单位,变异程度小则少抽一些单位。这种方法又称为类型适宜抽样或一般抽样。
第二,等比例抽样。即按各类型组的单位数占总体单位数的比重进行抽样。
在实际工作中,由于事先很难了解各组的标志变异程度,因此,大多数类型抽样采用等比例抽样法。
类型抽样的特点是,样本单位数不是从整个总体,而是从各类中分别抽取,且彼此独立。以等比例抽样中的重复抽样为例,要先求各类的方差σ2i,然后以其加权算术平均数作为总体方差,即
σ2
式中Ni――各类型组单位数;
N――总体单位数。
类型抽样的抽样平均误差,在重复抽样条件下,其公式为
μ
μp
上式中P(1-P),在大样本条件下,Pi可用相应的样本指标代替。在不重复抽样条件下,抽样平均误差可用重复抽样的公式计算。
三、等距抽样
等距抽样亦称机械抽样。它是先把总体各单位按照某一标志排队,然后按相等的距离抽取样本单位的组织形式。排队的标志可以是与调查标志无关的,也可以是与调查标志有关的。
按无关标志排队,是指排队时采用与调查项目无关的标志进行。例如,按姓氏笔画多少排队、按地名笔画排队、按地图上的地理位置排队等。也可以按时间顺序排队,例如,检查产品质量,确定按10%的比率抽检,这时即可按时间顺序在每10个产品中抽取一个进行质量检查,直至将规定的样本单位数抽满为止。
按有关标志排队,是指排队时采用与调查项目有关的标志进行。例如,进行我国粮食产量抽样调查,由省抽县,县抽乡,乡抽村,都是按前三年的粮食平均亩产量排队的;进行我国城市职工家计抽样调查,是按职工平均工资排队的。按有关标志排队,能使被研究对象标志值的变动均匀地分布在总体中,保证样本具有较高的代表性。
等距抽样除考虑排队的标志外,还需要考虑抽样距离的问题。设N为全及总体单位数,n为样本单位数,k为抽样距离,则k。
等距抽样的随机性表现在抽取的第一个样本单位上,当第一个样本单位确定后,其余的各个样本单位也就确定了。就是说,第一个样本单位确定后,每加一个抽样距离就是下一个被抽取的样本单位,直至抽满规定的样本单位数为止。例如,进行工业产品质量检查,当确定按5%的比率抽取样本单位时,可以按时间顺序每隔5件抽取一件产品进行登记,一直达到预定的样本单位数为止。又如,进行粮食产量抽样调查时,抽取样本单位是先按最近三年粮食平均亩产量排队,再根据累计播种面积和预定抽取的样本单位数计算抽样距离,第一个样本单位在1/2抽样距离处,以后每加一个抽样距离就是下一个被抽取的样本单位,直至抽满规定的样本单位数为止。
等距抽样在按无关标志排队,等距抽取样本单位时,实质上仍是简单随机抽样,其抽样平均误差的计算公式与简单随机抽样相同。在按有关标志排队,等距抽取样本单位时,实质上就成为类型抽样的特例。因此,抽样平均误差的公式与类型抽样公式相同。但按有关标志排队的等距抽样与类型抽样略有不同,等距抽样只在各组中抽取一个单位,而类型抽样是在各组中抽取若干个单位。
四、整群抽样
整群抽样亦称成组抽样。前面介绍的三种抽样组织形式,都是一个一个地抽取样本单位,故称为个体抽样。整群抽样则是一批一批地抽取样本单位,每抽取一批时,对其中所有的单位都进行登记调查。抽取的形式,既可用简单随机抽样形式,也可以用等距抽样形式,一般常用后者。例如,要按10%的比例对饭店餐具进行卫生检验,即可每隔5小时从已消毒的餐具中抽取一次消毒过的全部产品作为一群,然后按比例要求抽满群数组成样本,并对每群进行逐个登记。
整群抽样容易组织,多用于进行产品的质量检查。缺点是由于样本在总体中太集中,分布不均匀,与其他几种抽样方式比较,误差较大,代表性较差。但是如果群内差异大而群间差异小,即群内方差大,群间方差小,则可使样本代表性提高,使抽样误差减少。考虑到编制名单和抽取样本的工作比其他各种组织形式简便易行,调查也集中方便,这时整群抽样又是有益的。
整群抽样的特点是:若把总体划分为R个群,从R个群中抽取r个群加以全面调查,抽样方式为不重复抽样。它的误差视各群方差大小而定。各群方差的加权平均数,是计算抽样平均误差的依据。从公式的形式上看,它与类型抽样的公式类似,即
μ1-μp1-
式中R――总体群数;
r――样本群数;
δ2R――群间方差;
PR――群间成数。
群间方差的计算公式为
δ2R
式中xi――各群的平均数;
XR――总体平均数;
Fi――各群的单位数。
群间成数的计算公式为
PR
式中Pi――各群的成数;
Fi――各群的单位数。
附录 应用Excel求置信区间
本附录主要介绍应用Excel的函数工具以及手工输入公式等组合方式,构造出用于区间估计的Excel工作表。下面将介绍如何应用Excel操作方法来求置信区间。
【例9】某零件加工企业生产一种螺丝钉,对某天加工的零件每隔一定时间抽出一个。假定零件长度服从正态分布,试以95%的置信水平估计该企业生产的螺丝钉平均长度的置信区间。
为计算螺丝钉平均长度的置信区间,需构造区间估计的工作表。具体操作步骤如下:
第一步:将螺丝钉的样本数据输入Excel文档的A列中。
第二步:将区间估计构造表所需的指标名称输入B列中,指标包括样本数据个数、样本均值、样本标准差、抽样平均误差、置信水平、自由度、t值、误差范围、置信下限、置信上限等。
第三步:在C列插入对应B列所有指标名称的指标函数,按指标函数的语法结构编辑公式,计算区间估计构造表中的所有指标值。操作结果。
中C列的数据是在按照D列列示的计算公式的语法结构输入后,得到的计算结果。为让读者看清楚计算过程,充分掌握其操作方法,我们将指标函数英文名称和语法结构在D列中加以反映,而D列并非是求置信区间计算过程所需的操作步骤。另外,对于不同的样本数据,只要输入新的样本数据,再对C列公式中的样本“数据区域”略加修改,置信区间就会自动给出。如果需要不同的置信水平,填入相应的数据即可。
通过以上运算,我们有95%的把握认为该企业生产的螺丝钉的平均长度在10.900872~11.247461mm。