- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
012.
012. 数据预处理(1)——剔除异常值及平滑处理
测量数据在其采集与传输过程中,由于环境干扰或人为因素有可能造成个别数据不切合实际或丢失,这种数据称为异常值。为了恢复数据的客观真实性以便将来得到更好的分析结果,有必要先对原始数据(1)剔除异常值;
另外,无论是人工观测的数据还是由数据采集系统获取的数据, 都不可避免叠加上“噪声”干扰(反映在曲线图形上就是一些“毛刺和尖峰”)。为了提高数据的质量,必须对数据进行(2)平滑处理(去噪声干扰);
(一)剔除异常值。
注:若是有空缺值,或导入 Matlab 数据显示为“NaN”(非数),需要①忽略整条空缺值数据,或者②填上空缺值。
填空缺值的方法,通常有两种:A. 使用样本平均值填充;B. 使用判定树或贝叶斯分类等方法推导最可能的值填充(略)。
一、基本思想:
规定一个置信水平,确定一个置信限度,凡是超过该限度的误差, 就认为它是异常值,从而予以剔除。
二、常用方法:拉依达方法、肖维勒方法、一阶差分法。注意:这些方法都是假设数据依正态分布为前提的。
拉依达方法(非等置信概率)
如果某测量值与平均值之差大于标准偏差的三倍,则予以剔除。
x ? x ? 3S
i x
1n其中,x ? ?
1
n
x 为样本均值,S
x
? 1 n
???
?
?
1
?2( x ? x)2 ? 为样本的标准偏
?2
i
i
n i
i?1
差。
? n ?1 i?1 ?
注:适合大样本数据,建议测量次数≥50 次。
代码实例(略)。
肖维勒方法(等置信概率)
在 n 次测量结果中,如果某误差可能出现的次数小于半次时, 就予以剔除。
这实质上是规定了置信概率为 1-1/2n,根据这一置信概率,可计算出肖维勒系数,也可从表中查出,当要求不很严格时,还可按下列
近似公式计算:
n? ?1? 0.4ln(n)
n
Tab1. 肖维勒系数表
n
3
4
5
6
7
8
9
10
11
12
ω
n
1.38
1.53
1.65
1.73
1.80
1.86
1.92
1.96
2.00
2.03
n
13
14
15
20
30
40
50
100
200
500
ω
n
2.07
2.10
2.13
2.24
2.39
2.49
2.58
2.81
3.02
3.20
如果某测量值与平均值之差的绝对值大于标准偏差与肖维勒系
数之积,则该测量值被剔除。
x
i
x ? ? S
n x
例1. 利用肖维勒方法对下列数据的异常值(2.5000)进行剔除:
1.5034 1.5062 1.5034 1.5024 1.4985 2.5000 1.5007
1.5067 1.4993 1.4969
上述数据保存于文件 erro.dat 代码:
x=load(error.dat);
n=length(x); subplot(2,1,1);
plot(x,o); title(原始数据)
axis([0,n+1,min(x)-1,max(x)+1]);
w=1+0.4*log(n);
yichang = abs(x-mean(x)) w*std(x);
% 若用拉依达方法,把 w 改成 3 即可,但本组数据将不能成功剔除异常值。x(yichang)=[];
save errornew.dat x -ASCII
subplot(2,1,2);
plot(x,rs);
title( 异 常 值 剔 除 后 数 据 ); axis([0,n+1,min(x)-1,max(x)+1]); 运行结果:x =
1.5034 1.5062 1.5034 1.5024 1.4985 2.5000 1.5007
1.5067 1.4993 1.4969
y =
1.5034 1.5062 1.5034 1.5024 1.4985 1.5007 1.5067
1.4993 1.4969
一阶差分法(预估比较法)
用前两个测量值来预估新的测量值,然后用预估值与实际测量值比较,若大于事先给定的允许差限值,则剔除该测量值。
预估值
比较判别:
x? ? x
n n?1
(x
n?1
x )
n?2
x ? x? ? W
n n
注:该方法的特点是
适合于实时数据采集与处理过程;
精度除了与允许误差限的大小有关外,还与前两点测量值的精确度有关;
若被测物理量的变化规律不是单调递增或单调递减函数, 这一方法将在函数的拐点处产生较大的误差,严重时将无法使用。
(二)数据的平滑处理
对于一组测量数据(xi,yi) i=1,…,n,不要直接就想着求出的拟合多项式的线性参数,而是要先平滑处理去掉“噪声”。平滑处理在科学研究中广泛使用,它可以减少测量中统计误差带来的影响,尤其被用于无法利用多次重复测量来得到其平均值的情况和当
文档评论(0)