复杂样本抽样技术).ppt

  1. 1、本文档共102页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
复杂样本抽样技术)

第一节 概述 第二节 随机组法 利用随机组方法估计拒答率及其方差 172个抽屉 64张卡片,卡片可能是可能是合同汽车旅馆、饭店、空白卡片等 1.总体中约有5000个合同汽车旅馆,并准备抽取约700个单元作总样本,这样,总抽样比约为700/5000,即约7个里面抽1个。所以,每一个抽屉都各增加6张空白卡片,这样每个抽屉都有70张卡片。 2.从每一个抽屉中随机抽取一张卡片,组成一个172张卡片的样本。抽样在不同的抽屉中是互相独立的。 3.按照第2步的方法有放回地再抽取9个样本,10个样本(或随机组) 互相独立。 4.结果有854个汽车旅馆被抽入总样本,向每一个单元寄一张调查表。其他单元不是合同汽车放馆,不属于被调查总体。没有单元被重复观测。 5.10天后,对无回答的单元第二次寄调查表,再过一星期第三次寄调查表。如果一个单元24天后仍无返回调查表,就被认为是无回答者。 6.将无回答者按随机组的数字顺序排列,并从每3个相邻组中随机抽选一个。忽略对随机组估计量独立性的破坏。 4 多阶段抽样:来自同一初级抽样单元(PSU)的所有基本样本单元的集合:末级群。随机组是通过将所有末级群分成组而得到的,具体的划分方法根据第一阶抽样方法而定。 5如果采用的是二重抽样,则应将第一重样本划分成个随机组;而第二重样本则被相应地分成随机组,即第二重样本单元所在的随机组完全由第一次划分时决定。 总结:random group methods 优点: 计算简单,适用面广 适于多参数、非参数问题,适于分中位数等非平滑函数,也可用于非抽样误差加权调整后的方差估计。 缺点: 随机组数目一般较少,方差估计不稳定,一般至少10个随机组。 随机组的产生较困难:要求机制与复杂抽样相同,而且限制随机组数目,如每层2个PSU Resampling and replication methods Sampling:“population” Subsamples (WR ):估计方差 Banlanced Repeated Replication Jacknife bootstrap Banlanced Repeated Replication 半样本法:50年代末美国普查局的W. N. 赫维茨和M. 格尼 平衡半样本法 :麦卡锡 第三节 平衡半样本方法 半样本基本原理 每层只抽两个单元的分层抽样 随机组方法 随机组缺点?由于仅仅一个自由度,其稳定性比标准估计量差 半样本:从每层抽取一个单元形成半样本,总共可能出现?个半样本 半样本之间是彼此相关的 半样本估计量 =1,如果第h层中第一个单元被选入第 个半样本; = 0,否则。 半样本估计量的性质 平衡半样本 完全正交平衡半样本 :k的选择应该是大于L的4的最小整数倍 部分平衡半样本 假设有L层,采用K组半样本 L层可分为G群 各群用同样方法 构造正交列 用于多阶段抽样 在L层中的每一层初级抽样单元(PSU)都是按放回的抽样抽取的 用于非线性估计 对于非线性估计量,一般 和 是不等的,但多数调查实践中两者非常接近 推广 nh = 1 nh 〉2 第四节 Jackknife方法 拒答率案例 第五节 其他方法简介 一、bootstrap(Efron,1979) SRS,n, ”population”,resamples,假设S是一个容量为n的简单随机样本;将S视为总体,从中再抽取重复样本。如果样本与总体确实相似——如果样本的经验概率密度函数(epmf)与总体的概率密度函数相似——那么从经验概率密度函数中产生的样本应该与从总体中抽取的样本表现出相同的特性。 WR,WOR 优势:非平滑函数,方便的构造置信区间 例 利用文件ht.srs中的样本,用bootstrap方法估计身高中位数的方差。总体中身高的中位数是168;而ht.srs中样本中位数是169。 总体概率密度函数与样本柱状图有相同的形状,因此预期从S中放回地抽取容量为n的简单随机样本,与从总体中放回地抽取的简单随机样本是类似的。 从S中抽取的重复样本可能与S并不完全一致,因为重复样本是放回的——S中的有些观测值可能在重复样本中多次出现,有些观测值却从未被抽到过。 一共从S中抽取R = 2000个重复样本(n=200),分别计算每个样本的中位数,得到 2000个样本中位数的频数表: 这2000个值的样本均值为169.3,样本方差为0.9148(方差的bootstrap估计量)。 中位数的95%置信区间为[167.5, 171]。直接利用bootstrap估计出的抽样分布,确定bo

文档评论(0)

liwenhua11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档