74795,得随机数码74795×0.367=27449.765和74795×0.697=52132.115,取整后分别为27449和52132。
4.27449和52132分别位于累计数Ti的26340~31668和46231~58265之间,所以4号和6号街道,也就是街道n4和街道n6被抽中。
5.如果产生的随机数挨得太近,使得算出的随机数码对应于同一街道,那么,需要重新产生随机数,直到取整后的随机数码对应于不同于被抽中的街道为止。
七、入户抽样
入户抽样就是进入家庭户后,在确定调查对象范围内,随机抽取一个调查对象。入户抽样方法主要有KISH表法和生日法。
1k犐S犎表法这是指美国着名的抽样专家KISH创立的一种在确立了户之后,如何选择户内家庭成员的方法(见表52)。它的原理与随机数表的原理是一致的。
注意事项:
1.家庭成员的登记序号按照年龄大小“从大到小”的顺序依次排列。
2.所列家庭成员应同时具备下列条件:18-70岁,具有本市正式户口或暂住证。
3.选样依据表中问卷编号尾数与家庭人口数交汇的数字而确定相应的序号所对应的家庭成员,并在该家庭成员同一行的“选样”栏中打钩。
那么,如何运用KISH表呢?其步骤是:
(1)确定该户的符合调查要求的人口数。
(2)依照年龄由高到低,按家庭成员编号的顺序写在表的相应位置上。
(3)确定样本户的编号。通常的作法是:调查员调查的第一户的编号为1,第二户的编号为2,以此类推;或以问卷号的末位数为准。
(4)样本编号末位数所在列,于家庭成员人口数行所对应的数字为该户成员年龄由大到小排列的编号,此编号所对应的人为抽样样本。
举例来说,该户有5人,年龄分别为69岁、67岁、38岁、32岁、4岁,调查对象年龄要求为18岁至70岁,所以确定人口数为4,依照年龄顺序分别填入表中;该户的样本编号末位数为5,从而确定该户的样本的调查顺序号为3,即该户38岁的人为调查的样本。
2生日法
所谓生日法,就是根据调查实施的具体时间和家庭成员出生时间的匹配程度选择被调查对象,家庭成员中谁的出生时间越是接近调查的实施时间,这个人就是被调查对象。例如,某调查的具体实施时间是从2008年3月15日开始到3月31日结束,研究主持人可以指定其中的一天,如2008年3月15日为生日法抽样的对照时间,某家庭有4人,其中父亲的出生时间为1946年3月12日,母亲为1950年5月11日,儿子为1977年11月22日,比较他们的出生月与出生日,最为接近3月12日的是父亲,因而父亲就是该家庭的被调查对象。如果遇到家庭成员中有数人的出生月份与出生日期是完全一样的或者出生月份、出生日期与生日法对照时间的差距是完全一样的,可以采用抽签法确定谁是被调查对象。
什么时候用概率抽样,什么时候用非概率抽样,应当根据是定量研究还是定性研究等各种要求来决定,例如研究的性质、对误差容忍的程度、抽样误差与非抽样误差的相对大小、总体中的变差以及统计上的、操作上的考虑等。尽管非概率抽样不能推断总体,不能计算抽样误差,但在实际调查中仍常被应用。一方面是操作的考虑,减少非抽样误差的发生;另一方面也是因为所调查内容不需投射总体,而且一般总体的同质性较强。
第五节样本大小
样本大小又称样本容量,指的是样本所含个体(个案)数量的多少。样本的大小不仅影响其自身的代表性,而且还直接影响到调查的费用和人力的花费。
确定样本大小,一般应考虑的因素有:(1)精确度要求;(2)总体的性质;(3)抽样方法;(4)客观制约。
一、样本及影响因素
样本是从总体的所有单位中抽取出来的能代表总体的部分单位,用n表示。
样本是总体的缩影,是用以估计或推断总体全面特征的依据。影响样本对总体代表性强弱的因素有:(1)总体分布的离散程度——总体的平均离散程度小,样本的代表性就大;总体的平均离散程度大,样本的代表性就小。(2)抽样单位的数量多少——样本单位过少,代表性就差;样本单位达到一定数量,才有一定的代表性。(3)抽样的方式方法——以不重复抽样和不等概率抽样的样本代表性为好。不重复抽样,是指从总体中随机抽取一个单位,经调查观察后,不再放回原总体,就余下的总体单位中,又随机抽取第二个单位,如此继续抽下去,直至抽满预定单位数为止。不等概率抽样,是指对中间层抽样时,按抽样单位包括下级单位或基本单位数所占比例的不同,给予相应于这些不同比例的抽样。例如,调查某区小学生体质情况,可分区抽学校、学校抽学生两个层次。在区抽学校时,学生数多的学校,给予较大的被抽概率;学生数少的学校,给予相应较小的被抽概率。30及30个以上单位的称为大样本;不到30个单位的称为小样本。当然,海外有关统计书籍也有将100个单位一下称之为小样本的标准,这可根据研究要求予以明确界定去用何种标准。
二、样本大小的确定
在确定了抽样方法后,要考虑的是调查多少人合适,也就是样本量多大合适。
样本量的大小涉及调研中所要包括的人数或单元数。确定样本量的大小是比较复杂的问题,既要有定性的考虑也要有定量的考虑。
从定性的方面考虑样本量的大小,其考虑因素有:决策的重要性,调研的性质,变量个数,数据分析的性质,同类研究中所用的样本量,发生率,完成率,资源限制等。具体地说,更重要的决策,需要更多的信息和更准确的信息,这就需要较大的样本。探索性研究,样本量一般较小,而结论性研究如描述性的调查,就需要较大的样本搜集有关许多变量的数据,样本量就要大一些,以减少抽样误差的累积效应。如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当较大;如果需要特别详细的分析,如做许多分类等,也需要大样本。针对子样本分析比只限于对总样本分析,所需样本量要大得多。
具体确定样本量还有相应的统计学公式,根据样本量计算公式,我们知道,样本量的大小不取决于总体的规模,而取决于:(1)研究对象的差异程度;(2)所要求或允许的误差大小;(3)要求推断的置信程度。也就是说,当所研究的现象越复杂,差异越大时,样本量要求越大;当要求的精度越高,可推断性要求越高时,样本量越大。
总之,在确定抽样方法和样本量的时候,既要考虑调查目的、调查性质、精度要求(抽样误差)等因素,又要考虑实际操作的可实施性、非抽样误差的控制、经费预算等因素。我们要根据具体情况及调查性质进行综合权衡,达到一个最优的样本量的选择。
因此,首先我们要了解,样本数和总体两者不是直接关系,而是缓慢的曲线关系。如从1000人中抽取380人,可信度为95%,置信区间为±3%;那么就是从50万人中抽样所需抽出的样本数量是增加得很缓慢的,只达到600个。如果从100万以上的人中抽样,所需抽出的样本数就增加得更慢了。如图52显示。
可见,如果不同城市分别进行抽样时,“大城市多抽,小城市少抽”这种说法原则上是不对的。在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。
同时,我们还要从两个方面来考虑其样本数目。
1资料分析上的要求
这里有一条准则,样本的数目起码要够作资料分析用。比如取30个样本,研究年龄与收入的关系。
把年龄分为三组:(1)21-40岁;(2)41-60岁;(3)60岁以上。把工资收入分为上、中、下3个层次。要找出年龄和工资收入的关系,可以把年龄和工资收入进行交互分类(见表53)。
由表可见,用30个样本个案进行资料分析是不够用的,这样得出的结论不可靠,因为数据太少,在统计上是没有意义的。那么,要增加个案,如这组资料统计分析,最少要有120个个案。
2统计上的要求
样本的大小与抽样误差成反比,与研究代价成正比。这里有个均衡的准则。
均衡的主要准则
(1)根据代价限度抽取最大样本辅助准则(2)容忍错误的程度越小,样本越大(3)研究对象之间差异越大,样本越大总之,我们依据“代价小,代表性高”的原则。对同质性强的总体,其差异不大,选择样本可以小一点;而异质性高的总合,则要选择大一些的样本。估计样本大小,我们有个简单的公式:
公式中,犲是抽样误差,即总体的参数值与样本的统计值之间的差异″=(参数值-统计值)根据统计资料的随机性的特点,决定了从各总体中抽取一部分进行研究时,根据样本计算的统计量与总体的参数是不可能相等的,而具有多值性。
δ是总体的标准差。总体标准差δ反映了总体变量值分散的程度(也可以说是异质性程度)。如果总体变量值分散程度大,即δ大,样本变量也就要大。如果总体变量值分散程度小,即δ小,样本变量也就要小。
k是可信度系数。可信度,即可靠程度,也就是样本对总体的代表性程度。
在统计中,可信度和可信度系数具有这样的关系:可信度为99%,可信度系数k=2.58;可信度为95%,可信度系数k=1.96;可信度为68%,可信度系数k=1.00。
三、样本推论的逻辑
我们进行抽样,目的是从样本推论总体。事实上,在统计资料分析中有一个关注正确推论的子领域,就叫推论统计。
在第四章我们看到测量的逻辑如何用抽象概念与具体指标之间的差距表述出来。具体的、可观察资料的量数是抽象概念的近似值。研究者用近似值评估真正有兴趣的东西。如图抽样一样、抽样过程与推论的使用是缩小抽样的差距,概念化与操作化是缩小测量的差距。
研究者直接观察概念的量数与样本中的经验关系(见图53),把抽样与测量的逻辑连在一起。他们根据样本中能够从经验观察到的部分,推论或概括出母体的抽象法则为概念。
效度与抽样误差有类似的功能,这可以用抽样逻辑与测量逻辑之间的类比说明。研究者测量是要有效的概念指标——也就是精确代表抽象概念的具体指标,抽样时是要抽样误差小的样本——具体的个案集合,能够正确代表没看到的、抽象的总体。有效的量数不会和所代表的概念偏离太多。抽样误差不大的样本不会推估偏离总体大多。