金勇进教授《抽样调查中的权数问题》.pptxVIP

金勇进教授《抽样调查中的权数问题》.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
金勇进教授《抽样调查中的权数问题》

抽样调查中的权数问题 中国人民大学 金勇进 电子邮箱:jinyongj@public.bta.net.cn 电话:010;一.权数的功能 定义:以某种数量形式、权衡被评价事物总体中诸 因素相对重要程度的量值; 抽样中的权数:在样本对总体推断中用以衡量各样本单元的变量值在总体中用大小的数值。 作用:通过权数使样本还原到总体,即样本单元权数之和等于总体单元数。;具体看,权数功能表现在两个方面: 由样本还原总体。这是侧重数量,主要体现在不 等概抽样设计中,样本单元入样概率不同,权数就不同; 2. 调整样本结构。由于抽样的随机性,样本结构与总体结构不一致,而结构又与目标量有关。; 权数的两个功能,有时可以达到一致,有时可能 存在矛盾。一般而言,首先保证目标1,在目标1基础 上实现目标2。 一般,目标1通过计算样本单元设计权数实现;目标2通过对设计权数的事后分层调整体现。 ;二. 计算权数步骤 设计权数表现为样本入样概率的倒数,概率抽样特征是每个样本单元入样概率是可以计算的。抽样框信息是计算权数的重要依据,能否计算出权数也是概率抽样和非概率抽样的根本区别。 如采用二阶段抽样,设计权数 ; 计算出设计权数后,还需根据调查中出现的不同问 题进行调整,否则无法实现样本单元权数之和等于总 体规模。 调整内容1,特殊因素调整,主要对调查实施中出现与设计不符情况的调整。 ;以整群抽样为例: 整群抽样设计群规模(调查小区)为30(M)户,若调查小区的住户 ,则应该计算调整系数,使实际样本回归到原设计。 调整系数: ; 调整内容2,无回答调整 调整方法是计算无回答调整因子。 若令 :第j调查小区的无回答调整因子; :第j个调查小区的回答住户的权数和; :第j个调查小区的无回答住户的权数和; 则第j调查小区的无回答调整因子为: ;无回答调整的本质是将无回答样本单元的权数分解到回答单元身上。 所以,调整应该在分类、分层基础上进行。 设计最终权数 由此实现目标1,样本单元权数之和等于总体规模。; 对于目标2,结构方面的权数调整,目的是使样 本结构与总体结构一致。 由于抽样的随机性,样本结构与总体结构可能出 现不一致。 如:调查教师平均工资,工资水平与职称有关。 样本职称结构与总体不一致。 ; 基本做法,进行事后分层,利用总体辅助信息进行 调整。 多变量联合调整是经常遇到的问题。 如教师工资不仅与职称有关,还与性别有关。 按职称与按性别事后加权最终计算结果可能不同。这 时权数调整将趋于复杂。 ;调整方法很多,有许多文献进行过这方面的讨论,如迭代,校准(Calibration),广义回归等。 以迭代为例: 迭代调整的核心是使样本联合分布与总体联合分布一致。从辅助变量的边缘分布考虑,沿行列方向交替迭代,直至收敛。 ;例中有两个进行加权调整的辅助变量A、B。其中A有4类,B有3类。原始加权的样本联合分布和总体联合分布如下表所示。 ; 表1 基于辅助变量A和B的原始加权的样本联合分布 表2 基于辅助变量A和B的原始加权的总体联合分布 现实中,表2格中数字可能未知,但有边缘分布即可。; 第一步是对所有行进行调整,即将A1行上所有单元乘以175/100,A2行上所有单元乘以550/500……,第二步是对所有列进行调整,即在第一步所得结果的基础上,将B1列上所有单元乘以365/356.75,将B2列上所有单元乘以415/504,将B3列上所有单元乘以720/639.25。 表3 迭代第一步 表4 迭代第二步; 调整过后,样本每行总量与总体相应行总量又不一致了,因此这样的迭代过程要一直重复直到行与列总量收敛于总体边际分布。最终的结果如下表5所示。 表5 最终迭代调整系数;三. 权数的影响与控制 (一).权数的影响 权数是双刃剑,进行调整有助于样本结构和总体结构一致,但权数之间差异过大有可能增大估计量方差。 为了说明这点,有下面论证 ;记: 为样本的简单平均数; 为样本的加权平均数; 为每个样本单元的权数; 为各样本单元权数的均值; 为目标变量Y的方差; 根据抽样的基本理论可知: 对于简单随机抽样,在大样本

文档评论(0)

dajuhyy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档