数据清洗的方法的研究综述.docVIP

  • 193
  • 0
  • 约5.2千字
  • 约 10页
  • 2018-10-17 发布于福建
  • 举报
数据清洗的方法的研究综述

数据清洗的方法的研究综述   摘要:数据是数据挖掘和应用的重要保证,“脏数据”会导致不可靠输出,这种输出导致的结果有可能难以弥补。因此,数据清洗方法研究意义重大。阐述了数据预处理过程中的数据清洗方法,介绍了缺失值填充及去除数据噪声的常用方法,总结了数据挖掘的应用前景,展望了数据清洗研究方向。   关键词:数据预处理;数据清洗;数据质量;缺失值   DOIDOI:10.11907/rjdk.172093   中图分类号:TP301   文献标识码:A 文章编号:1672-7800(2017)012-0222-03   Abstract:Data is an important guarantee for data mining and application, “Dirty Data” can lead to unreliable output, the result of this output may be difficult to make up, therefore, the data cleaning method has important research significance. Aiming at the data preprocessing process data cleaning is surveyed in this paper, clarifying the missing values and removing the noise in the data method, comparison of the advantage and disadvantage of commonly used methods, summarize the shortcoming of data cleaning research and the application of data mining.   Key Words:data preprocessing;data cleaning;data quality; missing value   0 引言   不同的?稻萸逑捶椒ㄓ懈髯缘挠湃钡恪4笫?据开发、挖掘和应用越来越广泛,但脏数据却普遍存在。脏数据指源系统中的数据不在给定的范围内,或对于业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码或含糊的业务逻辑[1]。挖掘的数据基本上是来自生产、生活、商业中的实际数据,各种原因都可能导致缺失某些重要数据、采集到的数据不正确或含有噪声、不一致等问题。数据质量是数据挖掘效果的重要保证,因此,数据清洗方法研究意义重大,也面临很多亟待解决的问题。   1 数据预处理   数据预处理技术可以改进数据质量,提高挖掘过程的准确率和效率。数据预处理分为数据清洗、数据集成、数据规约、数据变换[2]几方面。数据清洗是通过填写缺失值、光滑噪声数据、识别或删除离群点等方法,解决不一致性问题[3]。本文主要阐述了数据预处理过程中数据的清洗方法,数据清洗的主要任务就是填充缺失值和去除数据噪声。   2 缺失值处理   (1)缺失值处理最原始的方法就是删除法,数据在数据库中以表的形式存在,将存在缺失值的记录删除,解决数据缺失问题。   (2)插补法。通常数据挖掘为大型数据库,属性成百上千,因一个值的缺失而舍弃一条记录,会造成极大浪费。因此,一般用最可能的值来填补缺失值,常用的插补方法如下:①均值插补。数据分数值型与非数值型,当缺失值为数值型(可进行加减运算的数据),就用平均值插补缺失值,当缺失值是非数值型时,就用众数插补缺失值,如果数据符合较规范的分布规律,还可用中值插补;②回归插补。回归法可以用于数据缺失问题,Rubin[4]用贝叶斯Logistic回归法进行多重插补。于力超、金勇进[5]利用回归插补法对缺失数据进行插补。戴明锋等[6]在分析数据缺失机制前提下,通过二分类Logistic回归插补法,根据发生概率大小确定插补值。刘燕[7]提出了基于Logistic回归的近邻择优补差法。通过模拟比较发现,基于回归的近邻择优插补法的均方误差最小,波动性最小,插补效果较好;③极大似然估计。极大似然估计(Max Likelihood)是指在缺失类型为随机缺失条件下,通过观测数据的边际分布推出未知参数,此方法又称忽略缺失值的极大似然估计。极大似然估计实际上是一种数学期望,已知某参数能使样本出现的概率最大,就当然会忽略小概率的样本。因此,实际中常采用期望值最大化EM(Expectation Maximization)的计算方法;④其它插补方法。关联规则插补:Ragel等[8]提出RAR(Robust Association Rules)方法,充分利用有效数据,减少数

文档评论(0)

1亿VIP精品文档

相关文档