06 第六章 不等概率抽样.doc

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
06 第六章 不等概率抽样

第六章 不等概率抽样 第一节 等概率抽样概述 一、不等概率抽样的必要性 在简单随机抽样中,总体(或层)中的每个单元入样的概率都相等。如果总体中的每个单元在该总体中的地位(或重要性)相差不多,则这种基于等概率的抽样是理所当然的选择。等概率抽样不仅实施简单,而且相应的数据处理公式也简单。但是在许多实际问题中,我们还需要使用不等概率抽样(sampling with unequal probabilities)。 一种情况是调查的总体单元与抽样总体的单元可能不一致。例如,某学校欲对学生的家庭情况进行调查,调查总体是全校学生的家庭。在这些家庭中,许多家庭只有一个孩子在该校就读,但也有些家庭有两个或两个以上的孩子在该校就读。从抽样角度来说,将学生作为抽样单元是方便的,因为相应的抽样框是现成的。而另一方面,从调查角度而言,对每个(学生)家庭实行等概率抽样又是合理的。这样就产生了一个问题:若对学生实行等概率抽样,则每个家庭被抽中的概率并不相等。例如有两个孩子在该学校就读的家庭入样的概率是只有一个孩子在该校就读的家庭入样概率的两倍。因此,为了使每个家庭入样的概率相等,就只能对学生进行不等概率抽样。方法是:对每个学生登记其家庭在该校就读的学生人数,每个学生的家庭入样的概率应与这个数字成反比。 另一种需要用到不等概率抽样的情况是,抽样单元在总体中所占的地位不一致。例如若用抽样方法估计全国科技人员在近五年内的流动总数,那么大的单位(研究所、高等院校、企业单位等)显然比小单位重要得多。类似的例子还有通过对企业的调查估计某地区某一时期内的总产值,对商业网点调查估计该地区的商品零售总额等等。在这些例子中,对单位(包括工厂、商店)进行等概率抽样,估计效果一般不会很好。若对单位进行不等概率抽样,使大单位入样的概率大,小单位入样的概率小,就可大大提高估计的精度。单位的大小可用适当的量来表示,例如研究所的科技人员数,企业与商店的固定资产或流动资金总额等。最重要的一种不等概率抽样乃是使每个单元入样的概率与该单元的大小成比例的抽样(sampling with probabilities proportional to sizes,简称PPS抽样)。 第三种需用不等概率抽样的情况是为了改善估计量的特性。每个可能的样本若被抽的概率与样本中单元的辅助变量之和成正比的话,则按此进行不等概率抽样所得到的样本,用通常的比估计方法所得的估计量是无偏的。 总之,在实际工作中需要我们经常采用不等概率抽样。另外,从上面列举的情况也可看到,凡需使用不等概率抽样的场合,必须提供总体单元的某种辅助信息,例如每个单元的“大小”度量Mi或辅助变量Xi等。 二、不等概率抽样的主要分类 不等概率抽样可按多种原则进行分类。鉴于不等概率抽样同时会带来目标量估计及其方差估计的复杂性,为了简化起见,人们常使用放回抽样:每次在总体(或层)中按一定概率抽取一个单元,抽取后放回总体,再进行下一次抽样,每次抽样都是独立的。在另外一些场合,为使抽样的效率更高,也使用多种不放回抽样。其代价是:由于丧失了独立性,无论是抽样方法还是方差估计,都要比放回抽样繁复得多。另一种分类是:视每次抽样(放回抽样的情形)概率或每个单元的入样概率(不放回抽样的情形)是否严格地与单元的大小成比例。另外,看样本量n是固定的还是随机的。最重要的情形乃是当n固定,且上述概率与单元大小严格成比例的不等概率抽样。以后我们将这种情形的放回抽样称为PPS抽样,称相应的不放回抽样为πPS抽样。 对于不放回抽样,按其样本单元抽取方式的不同又可分为以下几种方法: 1.逐个抽取法。每次从尚未入样的单元中以一定概率抽取一个单元,这个概率通常与已经入样的单元有关, 2.重抽法。以一定概率逐个进行放回抽样,若一旦抽到重复单元,则放弃所有已抽到的单元而重新抽取,直到抽到规定单元数且所有入样单元都不同为止。 3.系统抽取法。将总体单元按某种顺序排列,且将规定的单元入样(或其倍数)累计起来,并确定抽样间隔,在这个范围内产生一个随机数以确定初始入样单元,然后按上述抽样间隔确定其余的样本单元。 4.全样本方法。对每个可能样本规定一个被抽中的概率,按这个概率一次抽取整个样本。 三、不等概率抽样的特点 不等概率抽样的主要优点是由于使用了辅助信息,提高了抽样策略的统计效率,与简单随机抽样甚至与分层抽样相比,能显著地减少抽样误差。 不等概率抽样有以下的缺点: 抽样框中的所有单元,都要有高质量的、能用作大小度量的辅助信息; 抽样框的创建比简单随机抽样和系统抽样成本高,更复杂,因为需要度量和存储总体中每一个单元的大小; 并非在任何情况下都能使用,因为并不是每一个总体都有稳定且与主要调查变量相关的有关大小或规模的度量; 抽样及估计(特别对不放回抽样)相当复杂; - 当单元大小度量不准确或

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档