缺失大数据地插补调整重点.docVIP

下载本文档

4
0
约8.73千字
约 13页
2019-01-03 发布于安徽
举报
版权申诉

缺失大数据地插补调整重点.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　　文章编号:1002-1566(2001 06-0047-07缺失数据的插补调整 ΞΞΞ 金勇进 (中国人民大学统计学系, 北京100872 摘要:插补是另一类对缺失数据进行调整, 以减小估计偏差的方法估计, 均值插补, 随机插补, 回归插补和多重插补。关键词:缺失数据; 插补调整中图分类号:O212;C81 , 一种被称为“单位无回答”, 它是指入选择本单位由于各种原因没有接受调查, 可以说这些样本单位交的是一份白卷。另一种被称为“项目无回答”, 它是指被调查单位虽接受调查, 但在某些调查项目上没有提供有效回答。与单位无回答相比, 项目无回答或多或少地提供了一些被调查单位的信息。上一讲中介绍的加权调整法虽然也可以应用于“项目无回答”, 但主要是对“单位无回答”进行的调整。而本文将要介绍的插补调整法虽然也可以应用于“单位无回答”, 但主要是对“项目无回答”进行调整的方法。所谓插补是指, 采用一定的方式, 为调查中的缺失数据确定一个合理的替补值, 插补到原缺失数据的位置上。插补可以达到二个调整的目的:一个是减小由于数据缺失可能造成的估计量偏差, 为此, 就要使确定的替补值尽可能地接近缺失的原数据值。事实上缺失数据的真值我们无法得知, 因此所追求的只能是确定替补值方法的合理和有效。调整的第二个目的是力图构造一个完整的数据集。在调整前, 由于缺失值的存在, 使原数据集上出现许多“窟窿”, 给一些统计分析方法的使用带来不便。采用插补的方式填补了缺失值的空缺, 就为后面分析人员的工作提供了方便, 他们在使用标准统计软件的同时, 不必繁琐地说明对缺失值进行处理的方法, 大大节省了精力和时间。而且不同分析人员使用的是同一套经过插补调整的数据, 也保证了分析结果的一致性。插补的效率如何, 取决于替补值与缺失值的近似程度。为了提高效率, 对研究总体进行分层, 使层内各单位诸方面情况尽可能相似, 利用同一层内回答单位的信息产生出缺失数据的替补值, 是进行插补的基本思路。因为可以利用不同的信息源, 采用不同的方式生成替补值, 所以有不同的插补方法。本文将对几种比较典型的方法做以简要介绍。二、演绎估计法演绎估计法适用于这样一种情况, 目标变量Y 的缺失值可以以很高的确定性由其它辅助 7 4缺失数据的插补调整 ΞΞΞ收稿日期:2000-08-20 基金项目:国家教育部人文社会科学研究“九五”规划项目资助课题变量来决定。这意味着, 目标变量与辅助变量之间存在着已知的函数关系, 即Z i =f (X i 。式中Z i 是第i 个单位目标变量缺失值的估计值(替补值 ,X i 是第i 个单位已知的辅助变量值。例如美国在一项关于医疗设备使用和费用的调查中, 多处使用演绎估计法对缺失值进行插补。1. 对种族缺失值的插补函数式为Z i =X i , 即如果某人种族数据缺失, 可采用其配偶的种族; 如果某家庭成员种族资料缺失, 可使用户主的种族。2. 如果年龄项目数据缺失, 则利用出生年份资料进行估计。若调查是在1990年进行, 令X i 为出生年份, 则Z i =1990-X i 。3. 若就业收入的数据缺失, 则利用其它4个相关的辅助变量信息推算。令X 1i 、X 2i 分别为该被调查者的主要职业和第二职业的周工资率,X 3i 、X 4i 分别为其在主要职业和第二职业上的工作周数入的估计值为Z i =X 1i . X 3i +X 2i . X 4i 。由此看出,f (X i 可假定为许多不同的形式Y 与关系, 且X 值已知。实践中, 。三, 使组内各单位的主要特征相似。然后分别计算各 , 将各组均值作为组内所有缺失项的替补值。均值插补法的特点是操作简便, 并且对均值和总量这样的单变量参数可以有效地降低其点估计的偏差。但它的弱点也比较突出。一个是插补的结果歪曲了样本单位中Y 变量的分布, 因为同组中缺失数据的替补值都由该组的平均值充当, 使得其分布状况受到由各组回答单位数据计算出的组均值的制约, 其次, 插补结果将导致在均值和总量估计中对方差的低估, 因为同一组内样本单位的离差将由于同一个数值的多次出现而偏低, 因此均值插补适用的场合是仅仅进行简单的点估计, 而不适用于需要方差估计等比较复杂的分析。四、随机插补法为避免均值插补中替补值过于凝集的弱点, 随机插补应运而生。这种方法是指, 采用某种概率抽样的方式, 从回答单位的资料中抽取缺失数据的替补值。为便于说明, 令某项目回答数据个数为n 1, 缺失数据个数为n 0, 则n =n 1+n 0, 现从n 1个数据中随机抽取n 0个替补值, 则样本构成为: 样本={y1,y 2, …,y n 1,y 3n 1+1,y 3n 1+2, …,y 3n } 此时, 目标变量的均值估计为: y