数据异常值与缺失值处理方法综述.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(b)异常值

异常值可能来自:数据错误、数据的固有变异性(有意或动机性的误报)

和抽样误差。在中,作者没有提到如何处理异常值。作者需要在正式数据

分析之前通过以下方法识别异常值:图表、经验法则:均值的3个或差、

马氏距离和库克距离。可以应用几种方法来处理异常值:删除、转换、截断和

稳健方法(温莎化均值;最小修剪平方和(LTS);最小中位数平方(LMS)

估计器)。

数据是另一种导致非抽样偏差的,因为不能假设数据是随机

的。我们观察数据集以查看是否存在值。如果存在,须明确或

测试数据是否会损害统计分析。最常用的方法来处理值包括预测

值、用均值替代、成对删除和列表删除。

(a)数据

在统计学中,当当前观测值中未变量的数据值时,就会出现值。非响

应包括单位非响应和项目非响应。在纵向研究中,参与者可能在某些数据收集阶段

出现,而在其他阶段。这种类型的性可以称为波次非响应(Schafer

Graham,2002)。数据的性质包括:完全随机、随机和非随机。

作者仅报告了软件和硬件公司在处理数据的方法,而未报告移动和电

信公司在处理数据的方法。作者需要报告移动和电信公司如何处理数

据。处理数据可以采用几种方法:列表删除、成对删除、单一填补、现代

方法(最大似然法和多重填补)。Schafer和Graham(2002)强烈推荐两种

处理数据的方法:最大似然法(ML)和贝叶斯多重填补(MI)。最大似

然估计在完全随机(MCAR)或随机(MAR)条件下不会产生显著偏

差,但在非随机(MNAR)条件下会产生较大偏差,即假设在随机条

件下。关于多重填补,它依赖于大样本近似,需要对性的分布做出假设,

其中每个参与者的值是根据其自身的观察值预测的,变量之间的联合关系

必须从所有可用数据中进行估计(SchaferGraham,2002)。

均值化问题

尽管作者提到他们在交互作用之前对两个组成部分进行了均值化处理,

但他们没有说明使用了哪种化技术。实际上,根据1998)的,

有两种化方法:组内均值化和总体均值化。不同的化技术有

不同的应用和含义。

建议根据1998)使用总体均值化来考察跨层次交互作用。

(b)Outliers

Outlierscouldcomefrom:dataerrors,theinherentvariabilityofthedata

(intentionalormotivatedmis-reporting),andsamplingerror.Inthepaper,theauthors

didn’tmentionedthathowtodealwithoutliers.Theauthorsneededtoidentifyoutliers

beforeformaldataanalysisthroughfollowingmethods:plots,ruleofthumb:3ormore

s.d.frommean,Mahalanobis’distanceandCook’sD.severalmethodscanbeapplied

todealwithoutliers:removal,transformation,truncation,androbustmethods

(Windsorizedmean;leasttrimmedsquares(LTS);leastm

文档评论(0)

183****7931 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档