数据缺失及其填补方法综述教学幻灯片.ppt

下载文档 降价啦

44
0
约2.98千字
约 26页
2018-02-27 发布于天津
举报
版权申诉
保障服务

数据缺失及其填补方法综述教学幻灯片.ppt

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

教学课件课件PPT医学培训课件教育资源教材讲义

LOGO * LOGO * LOGO * 目录页 CONTENTS PAGE LOGO * TRANSITION PAGE 过渡页 LOGO * 引言 Part 1 LOGO * 数据缺失简介 Part 2 LOGO * Part 3 数据缺失的处理方法 LOGO * Part 4 处理方法的选择与评价 LOGO * 总结 Part 5 数据缺失及其填补方法综述报告人：邵宏赡日期：2013.4 一二三引言数据缺失简介数据缺失的处理方法主要内容四处理方法评价五总结一二三引言数据缺失简介数据缺失的处理方法四处理方法的选择与评价五总结在社会调查资料中，最为常见的问题就是。造成数据缺失的原因有：失访、无响应或是回答问题不合格等等。统计学上，将含有缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的影响是很大的。所以在统计学中，为了能够更加充分地利用已经搜集到的数据，国内外很多学者都对缺失数据的处理提出了自己独到的见解，来挽救有缺失的调查数据，以保证研究工作顺利进行。数据缺失一二三引言数据缺失简介数据缺失的处理方法四处理方法的选择与评价五总结 ——数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。统计调查中能否按设计要求获得被调查单位的详全资料是衡量数据质量的一个重要标准, 但实际调查中经常遇到数据缺失的情况。无回答有2种表现形式: 单位无回答(unit non-response)和项目无回答(item non-response) 。 “单位无回答”——被调查者不愿意或者不能够回答整张的问卷; “项目无回答”——被调查者拒绝回答个别的调查项目。概念（Concept）缺失原因（Reason）在存储数据的过程中，由于机器的损坏造成数据存储失败；调查员在采集数据过程中，由于主观因素人为地认为数据不重要或无用，而私自丢弃数据；调查员信息录入失误；受访者拒绝透露被调查信息，或回答错误信息；受访者选取失误。例如调查工资情况，选取的受访者是婴幼儿。在统计调查过程中，数据缺失是不可避免的，造成这种现象的原因是多方面的，主要有以下几种： Little和Rubin针对缺失数据，探讨缺失数据与目标变量是否有关，定义了3种不同的缺失机制。产生机制（ Mechanism ） MCAR MAR MNAR 完全随机缺失(Missing Completely At Random) ：数据的缺失与不完全变量以及完全变量都是无关的。随机缺失(Missing At Random)：数据的缺失仅仅依赖于完全变量。非随机缺失(Not Missing At Random)：不完全变量中数据的缺失，依赖于不完全变量本身。这种缺失是不可忽略的。产生机制（ Mechanism ）缺失模式（ Pattern）数据缺失模式主要研究哪些变量缺失，更确切的说，关注的是缺失数据矩阵R的分布。当一维目标变量出现缺失数据时，我们在数据处理过程中首先要考虑缺失数据产生机制，而对于多维目标变量而言，除了考虑缺失数据产生机制外，还要判断数据的缺失模式。这种方法简便易行。在被调查对象出现多个变量的缺失, 并且被删除的含缺失的数据量在整个数据集中的数据量占的比例非常小的情况下, 是非常简单而有效的。它的不足之处在于，删除缺失数据的过程中减少了原始的数据，导致了信息的损耗。因此, 当缺失数据所占比例较大,特别当缺失数据非随机分布时, 这种方法可能导致数据发生偏离, 从而引出错误的结论。基于完整观测单位的方法删除法加权调整法列表删除个案删除（配对删除）加权是一个减少偏差的比较简单的措施, 但是由于丢弃不完整单位的信息, 并且没有提供一个内在的方差控制, 所以在样本量较大时, 易出现错误的结果。多重填补法1977年由Rubin首先提出，经过Meng和Schafer等人不断的完善和综合已形成一个比较系统的理论，该法有以下优点：①多重插补过程产生多个中间插补值，可以利用插补值之间的变异反映无回答的不确定性，包括无回答原因已知情况下抽样的变异性和无回答原因不确定造成的变异性。②多重插补通过模拟缺失数据的分布，较好地保持变量之间的关系。③多重插补能给出衡量估计结果不确定性的大量信息，单一插补给出的估计结果则较为简单