数据挖掘噪声数据处理综述.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘噪声数据处理综述

噪声数据处理综述 摘要:噪声数据是指数据中存在着错误或异常(偏离期望值)的数据,不完整数据是指感兴趣的属性没有值.不一致数据则是数据内涵出现不一致的情况。 为了更好的论述什么是噪声数据处理,给出了两种噪声数据处理的算法:在属性级别上处理噪声数据的数据清洗算法和一种改进的应用于噪声数据中的KNN算法。 关键词: 噪声数据 噪声数据处理 数据清洗 KNN算法 概述 噪声数据(noisy data)就是无意义的数据(meaningless data)。这个词通常作为损坏数据(corrupt data)的同义词使用。但是,现在它的意义已经扩展到包含所有难以被机器正确理解和翻译的数据,如非结构化文本。任何不可被创造它的源程序读取和运用的数据,不管是已经接收的、存储的还是改变的,都被称为噪声。 噪声数据未必增加了需要的存储空间容量,相反地,它可能会响所有数据挖掘(data mining)分析的结果。统计分析可以运用历史数据中收集的信息来清除噪声数据从而促进数据挖掘。 引起噪声数据(noisy data)的原因可能是硬件故障、编程错误或者语音或光学字符识别程序(OCR)中的乱码。拼写错误、行业简称和俚语也会阻碍机器读取。 (OLAP)和数据挖掘应用得到尽可能正确的结果。然而,这个过程也可以反过来,即利用数据挖掘的一些技术来进行数据处理,提高数据质量。 2.噪声数据处理 2.1在属性级别上噪声数据处理的数据清洗算法 2.1.1 数据清洗和聚类分析介绍 数据清洗包括许多的内容,文献【l】给出了详尽的介绍,其中噪声数据(包含错误或存在偏离期望的孤立点值)的处理是其中重要的一部分。数据含噪声(包含错误或存在偏离期望的孤立点值)可能有多种原因:收集数据本身难以得到精确的数据,收集数据的设备可能出现故障, 数据输入时可能出现错误,数据传输过程中可能出现错误,存储介质有可能出现损坏等。根据决策系统中“garbage in,garbage out“(如果输入的分析数据是垃圾,那么输入的分析结果也将是垃圾)这条原理,必须处理这些噪声数据。去掉噪声、平滑数据的技术主要有:分箱(binning),聚类(clustering),同归(regression)等。 聚类(clustering)就是将数据对象分组成为多个类或簇(cluster),在同一个簇中的对象之间具有较高的相似度,而不同的簇间的对象差别较大。聚类分析可以用来进行孤立点挖掘。孤立点挖掘可以发现噪声数据,因为噪声本身就是孤 立点 、聚类分析发现孤立点的方法有:基于统计的孤立点检测,基于距离的孤立点检测和基于偏离的孤立点检测。 2.1.2算法介绍 下面是一个利用聚类算法来发现关系数据库中孤立点数据的例子: 输入:数据集S,包括N条记录,属性集D:{年龄、收入};本文称一条记录为一个数据点(Data Point),一条记录上的每个属性上的值为一个数据单元格(Data Cel1)。S有N×D个数据单元格,其中某些数据单元格是噪声数据。输出:孤立数据点如图1所示。 图1通过聚类发现噪声数据的例子 孤立点A是一个孤立点数据,我们认为它是噪声数据,很明显它的噪声属性足收入,剩下的干净信息即年龄属性上的数据仍然可以用于预测或其他应用,同时可以利用年龄属性上的干净数据来矫正A在收入上的值。进一步,数据点B也是一个噪声数据,但是很难判定它在哪个属性上的数据出现错误。本方法试图确定噪声点B的噪声属性(即产生噪声的具体属性),并对其进行矫正。 算法思想:首先通过聚类识别噪声数据,并考察它们在各个属性上的值与其期望之间的距离以判定引起噪声的属性;然后,对于能够判定噪声属性的记录,寻找它所属的分类,并利用它所属分类中噪声属性上的值进行矫正;对于不能判定噪声属性的记录,因为噪声记录去除非噪声属性后的仍然是噪声记录,同样可以通过聚类判定其噪声属性并进行矫正;整个过程记录噪声记录在属性上的分布情况。。几个定义如下: 噪声数据矩阵(Noise Matrix,NM):通过聚类算法得到的孤立数据点集合矩阵,NM(i,j)的值对应孤立点集合P中第i条记录在属性j上的值,即NM(i,j)=P 污染矩阵(Corruption Matrix,CM):NM 对应的一个0—1布尔矩阵,NM(i,j)为噪声=CM(ij)=1;否则,CM(i,j)=0。 基本算法描述: 输入:含噪声数据的数据集S,S有N个数据对象,S的属性集合D={D1,D2,? ,Dk }。 输出:噪声数据矫正后的数据集合S,污染矩阵CM 方法: (1)P=GetNo1seByClustering(S、D);/* 属性集合D上对S进行聚类,得到孤立点数据集台P*/ (2)If (P!=Nul1)Then{ For i=O to length(P){ For j=0 to k{

文档评论(0)

精品报告 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档