一、样本单位数的确定
科学地组织抽样调查,保证随机抽样条件的实现,并合理有效地取得各项数据,是抽样设计中一个至关重要的问题。所以在抽样设计时应注意如下相关问题:
首先,要保证随机原则的实现。随机抽样是抽样推断的前提,失去这个前提,抽样推断的理论和方法也就失去了存在的意义。从理论上说,随机原则就是要保证总体中的每一个单位都有同等的中选机会。但在实践中,要保证这个原则的实现,需要考虑许多因素和可能采用的方法。
其次,要注意样本单位数的确定。例如,如果进行民意测验,一般需要考虑调查多少人才能反映全国十几亿人口的态度和意见;调查多少消费者才能了解人们对于该商店所提供服务的满意程度等等。样本单位数太大会增加调查费用,造成不必要的浪费;样本单位数太少又不能有效地反映真实情况,直接影响推断的效果。因此,在抽样设计中应该重视研究现象的变异程度、估计误差的要求和样本单位数之间的关系,做出科学的抉择。
再次,科学选择抽样组织形式。因为抽样组织形式不同,就会有不同的抽样误差,因而推断的效果也就不同。一种科学的组织形式应该是以尽可能少的样本单位数取得尽可能好的推断效果。因此,抽样设计必须选择合适的组织形式,并对所用形式的抽样误差做出正确的估计,进一步和其他组织形式的抽样误差进行对比,做出必要的效果分析。
最后,还必须重视调查费用这个基本因素。任何一项抽样调查实际上都是在一定费用的限制下进行的。抽样设计应该力求采用调查费用最省的方案,一般地说,提高精确度的要求与节省费用的要求往往是矛盾的,抽样误差要求愈小,则调查费用需要愈多。因此,抽样误差最小的方案并非是最好的方案,在许多情况下,一定范围的误差仍能够满足分析的要求。我们的任务就是在允许的误差下,选择费用最少的抽样设计方案。
综上所述,抽样设计应该掌握两个基本原则:
第一,保证实现抽样的随机原则,即保证总体各单位的相互独立性,以及任何一个单位在每次抽样中被抽中机会的均等性。
第二,保证实现最大的抽样效果原则,即在一定的调查费用下,选取抽样误差最小的方案;或在给定调查精确度的要求下,选取调查费用最省的方案。
(一)根据平均数的抽样极限误差确定样本单位数
影响抽样误差的因素之一,是样本单位数的多少。在抽样调查中,事先确定必要的样本单位数,是一项重要的工作。由于样本单位数n是抽样极限误差公式的组成部分,所以可以根据抽样极限误差公式推导出样本单位数。以简单随机抽样为例,测定总体平均数所必需的样本单位数n。
1.重复抽样条件下
n
2.不重复抽样条件下
n
(二)根据成数的抽样极限误差确定样本单位数
1.重复抽样条件下
np
2.不重复抽样条件下
np
n或np是指在抽样误差不超过预先规定的数值,即满足抽样极限误差小于等于Δ或Δp的条件下,至少应抽取的样本单位数。
(三)确定必要样本单位数应注意的问题
在确定必要样本单位数的过程中,可能会遇到一些应用性问题,主要应注意以下几个方面:
1.总体指标未知的问题
公式中涉及总体标准差与总体成数资料时,一般可利用以前的经验数据或样本数据来代替。若遇到有不止一个的经验数据或样本数据时,宜选择最大的一个。若总体成数未知,可选取使成数方差达到最大(0.25)或接近最大的P值代入。
2.估计对象导致数目不相等的问题
对于同一资料既要估计平均数又要估计成数时,根据这两种估计所求的必要样本单位数可能不相等,这时应选择其中样本单位数较大的进行抽样,以保证抽样推断的精确性和可靠性。
3.抽样方式导致数目不相等的问题
按重复抽样公式计算的必要样本单位数要比按不重复抽样公式确定的必要样本单位数大。在条件允许的情况下,为保证抽样推断的精确度和可靠程度,原则上,一切抽样调查在计算必要样本单位数时,都可采用重复抽样公式计算。
二、影响样本单位数的因素
影响样本单位数的因素主要有以下几个:
(一)总体标准差
在其他条件不变的情况下,总体标准差与样本单位数成正比。总体标准差大,说明总体差异程度高,总体各单位标志值较平均数的离散程度高,则样本单位数就多;反之,总体标准差小,则样本单位数就少。
(二)抽样极限误差
在其他条件不变的情况下,抽样极限误差与样本单位数成反比。允许的误差范围越大,对抽样估计的精确度要求越低,则样本单位数就越少;反之,允许的误差范围越小,对精确度的要求越高,则样本单位数就越多。
(三)抽样方法及抽样的组织形式
抽样方法和抽样组织形式不同,样本单位数的多少也不同。在其他条件不变的情况下,重复抽样条件下的样本单位数多于不重复抽样条件下的样本单位数;在适宜的条件下,类型抽样比简单重复抽样的样本单位数少。
此外,样本单位数的多少,一方面要考虑耗费的人力、财力、物力和时间的允许条件;另一方面要考虑能否达到研究的预期目的。一般而言,样本单位数越多,抽样误差越小,样本的代表性越大。但是,样本单位数越多,耗费的人力、物力、财力和时间也越多,从而又导致研究结果的时效性差。因此,在确定样本单位数时,还要考虑到这个方面的需要与可能。
【例8】仍利用,确定必要样本单位数。
根据
1055.5小时,s51.91小时,Δ10小时,t1.93,p90%(耐磨时数达1000小时以上的比重),Δp4%。
按样本平均数的重复抽样公式,确定必要样本单位数为
n≈100.4
按样本成数的重复抽样公式,确定必要样本单位数为
np≈209.5
根据计算结果,进行抽样调查时所确定的必要样本单位数应为210个。