- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
8.5.1 分类权重调整 样本权重 可以看成是样本单元i的总体代表率。分类权重法拓展了这意义,他进一步减少了非抽样误差:所有入样单元已知的变量被用来形成权重调整的分类,并认为同一分类中的应答者与不应答者是相似的。权重调整类别中的应答者的权重会加大以至于应答者本身也能代表无应答者中总体信息公共的那一部分。 假定应答概率在每一个权重类别当中都是一致的,也就是说,每一个权重类别当中的应答概率同y值无关。正如之前所提到的,分类权重假定缺失数据为随机缺失数据。权重分类c 当中的权重为 。 为了估计总体总值,我们采用分类权重调整法,令 如果单元在分类c中,否则就为0,于是令应答者i的权重为: 其中为每个单元i的入样权重, ,如果单元i在分类c中,定义 如果单元i为无应答者。于是, 如果样本是简单随机抽样的样本,令 为分类c中的样本单元个数, 为分类c中的样本应答个数, 为分类c中的应答者的样本均值,于是, ,于是: 8.5 事后分层 事后分层类似于权重分类调整法,只不过事后分层利用了总体数量来调整权重。假设抽取一个简单随机样本,利用人口统计的变量,比如说,种族和性别,将单元被事后分层为H个不同的层,总体中有 个单元在这第h层中,而样本中有 个单元在h层中,并且有 应答了。那么事后分层的估计量为: 而,权重分类调整法的分类按照事后分层的话,那么估计量为: 8.5.1 利用权重的事后分层 在通常的调查设计当中,第h层的权重之和被认为是当层 的估计值,事后分层法利用各层的比估计来估计真实值。 令 如果单元i在层h中,否则为零,于是令: 利用修正的权重: 于是,事后分层的总体估计值为: 事后分层假定(1)每一层中,入样的单元有相同的应答概率;(2)一个单元是否应答与其他单元无关;(3)同一层的无应答者的特征与应答者相似,数据是完全随机缺失数据。 8.5.2.2 搜索调整 搜索法是一种基于多种变量进行分层的事后分层法,但是只有边际总体总值是已知的。 参考下面一个样本的权重之和表,下面每一个数据都是样本处于这种分类下的权重之和。 黑人 白人 亚洲人 本地美国人 其他 权重和 女性 300 1200 60 30 30 1620 男性 150 1080 90 30 30 1380 权重之和 450 2280 150 60 60 3000 现在我们假设边际总体是已知的:我们知道有1510个女性,1490个男性,600个黑人,2120个白人,150个亚洲人,30个其他人种分类但是表中其他单元总体值是未知的,我们不能确定黑人女性的总体总值,并且并不能确定是不是独立的。搜索法使我们能够调整表内值使得他们的边际总和等于总体总值。 首先,调整行,每个项目值都乘以真实边际总值与边际估计值的比,因此女性行的所有项目值都乘以1510/1620,男性行的项目值都乘以1490/1380,然后得出结果。 这时候行的边际总值就达到了,但是列的总值还没有达到总体值,然后第一列的项目值都乘以600/441.59,然后其余列以此类推,再次得到结果。 但是这样的话再一次改变了行总值,持续这个过程,直到行和列的总值均等于总体总值为止,得到结果如下: 黑人 白人 亚洲人 本地美国人 其他 权重和 女性 375.59 1021.47 53.72 45.56 13.67 1510 男性 224.41 1098.53 96.28 54.44 16.33 1490 权重之和 600 2120 150 100 30 3000 调整后的权重会比原始权重更好,因为它运用了更多的总体信息,白人男性的权重调整因子为1098.53/1080。 搜索调整法同事后分层的假定一样,外加一条应答概率只与行列值有关,而与具体某一项的值无关,如果每一层的样本足够大,那么调整法的估计值就几乎是无偏的。 8.6 赋值法 在调查中会有多种原因导致数据缺失:比如说访问者忘记了一个问题;受访者拒绝回答问题或者无法提供信息;记录员记录的时候有可能遗漏数据。通常数据编辑和清理都有可能导致数据变成缺失数据。 赋值法通常用于为缺失数据赋值。我们将一个来自于另一个同无应答者十分类似的样本单元的替代值赋给缺失项目。如果我们使用分配法,那么就应答设置一个显示这个应答值是否来自人工赋予的辅助变量。 我们用表8.3中的小型数据来阐述不同方法的赋值。这些数据只用来举例,实际中,会有大量的数据需要赋值。“1”代表回答“是”。 8.6.1 推断赋值 在数据处理的时候,利用逻辑关系,有许多数据都能被赋值。在表8.3中,第9位受访者对于问题是否是暴力犯罪的受害者的回答是缺失的。但是她对于问题是否是犯
文档评论(0)