数据预处理之剔除异常值及平滑处理.pdfVIP

数据预处理之剔除异常值及平滑处理.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据预处理之剔除异常值及平滑处理.pdf

数据预处理——剔除异常值及平滑处理 测量数据在其采集与传输过程中,由于环境干扰或人为因素有可 能造成个别数据不切合实际或丢失,这种数据称为异常值。为了恢复 数据的客观真实性以便将来得到更好的分析结果,有必要先对原始数 据剔除异常值。 另外,无论是人工观测的数据还是由数据采集系统获取的数据, 都不可避免叠加上“噪声”干扰 (反映在曲线图形上就是一些“毛刺 和尖峰”)。为了提高数据的质量,必须对数据进行平滑处理(去噪声 干扰)。 (一)剔除异常值。 注:若是有空缺值,或导入Matlab 数据显示为“NaN”(非数), 需要忽略整条空缺值数据,或者填上空缺值。 填空缺值的方法,通常有两种:A. 使用样本平均值填充;B. 使 用判定树或贝叶斯分类等方法推导最可能的值填充(略)。 一、基本思想: 规定一个置信水平,确定一个置信限度,凡是超过该限度的误差, 就认为它是异常值,从而予以剔除。 二、常用方法:拉依达方法、肖维勒方法、一阶差分法。 注意:这些方法都是假设数据依正态分布为前提的。 1. 拉依达方法(非等置信概率) 如果某测量值与平均值之差大于标准偏差的三倍,则予以剔除。 x x  3S i x 1 1 n  1 n 2 2 其中,x x 为样本均值, 为样本的标准偏  i Sx  (x x )  i n i 1 n 1 i 1  差。 注:适合大样本数据,建议测量次数≥50 次。 代码实例(略)。 2. 肖维勒方法(等置信概率) 在 n 次测量结果中,如果某误差可能出现的次数小于半次时, 就予以剔除。 这实质上是规定了置信概率为1-1/2n,根据这一置信概率,可计 算出肖维勒系数,也可从表中查出,当要求不很严格时,还可按下列 近似公式计算: n 1 0.4ln(n ) Tab1. 肖维勒系数表 n 3 4 5 6 7 8 9 10 11 12 ωn 1.38 1.53 1.65 1.73 1.80 1.86 1.92 1.96 2.00 2.03 n 13 14 15 20 30 40 50 100 200 500 ωn 2.07 2.10 2.13 2.24 2.39 2.49 2.58 2.81 3.02 3.20 如果某测量值与平均值之差的绝对值大于标准偏差与肖维勒系 数之积,则该测量值被剔除。 x x  S i n x 例1. 利用肖维勒方法对下列数据的异常值 (2.5000 )进行剔除: 1.5034 1.5062 1.5034 1.5024 1.4985 2.5000 1.5007 1.5067 1.4993 1.4969 上述数据保存于文件erro.dat 代码: x=load(error.dat); n=le

文档评论(0)

zhoubingchina + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档