基于R语言地缺失值填补方法.PDF

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
方法应用 基于R语言的缺失值填补方法 李 璐 (暨南大学 统计学系,广州 510632) 摘 要:数据缺失是一个在实验研究和调查研究中经常遇到的问题。文章先介绍了数据缺失机制的四种 形式,指出解决数据缺失的一般性方法,即可以通过尽量引入更多的相关变量从而简化缺失机制;然后利用R 语言对2006 年中国健康与营养调查的部分数据进行了填补,介绍了各种填补方法在R 中的应用,并在介绍热平 台方法时提出运用R 寻找匹配样本的新思路。 关键词:R 语言;缺失值;填补方法;缺失机制 中图分类号:C821 文献标识码:A 文章编号:1002-6487(2012)17-0072-03 概率不仅与已观测变量有关,可能还与未观测到的变量有 0 引言 关。 (4)基于缺失值本身的缺失,指缺失的概率依赖于缺 我们在得到一份数据文件时常常会发现文件中存在 失值本身,一般可以认为生存分析中的删失数据属于这类 一些缺失的数据,而缺失数据会对分析任务产生阻碍,造 缺失机制,本文暂不考虑这类缺失。 成结果的偏倚及统计工作的低效率。在社会经济调查领 知道了数据的缺失机制后,便能对数据进行初步处 域,这些缺失数据的来源是多方面的,包括失访、无回答、 理。对于完全随机缺失的数据,简单地删除并不会对结果 录入错误、问题回答不合格等等。对于这部分缺失数据的 造成偏倚。对于随机缺失的数据,也是易于处理的,可以 处理将对分析结果造成一定影响,而现实情况是分析数据 通过建立缺失变量与影响缺失概率的变量之间的回归模 者往往对于缺失数据的处理方法没有相应地专业知识,因 型进行预测。而对于基于未观测变量的缺失,以及基于缺 此轻易对缺失数据进行删除或简单的填补,而没有考虑到 失值本身的缺失这两种缺失机制,则要复杂得多,原因是 更深层的因素。本文拟在介绍数据缺失机制及相关理论 我们既然无法观测到相关变量的值,也就无法判断它们之 的基础上,以2006年中国健康与营养调查的部分数据为 间的内在关系。解决这个问题的一个方法是尽量将所有 例,介绍各种填补方法在R语言中的应用,并在介绍热平 类别的缺失机制都简化到随机缺失这一类缺失机制。由 台方法时提出运用R寻找匹配样本的新思路。 于完全随机缺失是少见的,并且将完全随机缺失作为随机 缺失考虑依然不影响结果的偏倚性。而将基于未观测变 1 缺失数据的理论知识 量的缺失简化为随机缺失的想法是可以将尽量多的变量 作为相关变量加入到模型中,这些变量可能与未观测到的 1.1 数据缺失机制 相关变量存在相关关系,可以将其看作是工具变量。因 处理缺失数据前,首先应该了解数据缺失的原因,也 此,本文所使用的方法就有了理论基础。 [1] 就是缺失机制 。缺失机制是指缺失变量与分析变量的关 1.2 缺失数据的处理方法 系,了解数据缺失的原因,有利于选择合适的处理方法对 1.2.1 删除法 数据进行处理。一般情况下,缺失机制可以分为以下四种 解决缺失数据问题的一个简单易行的方法是删除部 [2] 类型 : 分数据,使之成为完整数据进行分析,而这些程序在

文档评论(0)

133****0075 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档