- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘预处理技术的研究
摘要:数据预处理是数据挖掘中的一个重要步骤,只有把要进行挖掘的数据预处理成便于挖掘的形式,才能从海量的数据中得到高质量的挖掘结果。数据的预处理主要是进行数据清理、数据集成、数据转换、数据归约等操作。
关键词:数据清理;数据集成;数据转换;数据归约
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2010)17-4600-02
Research on the Technology of Preprocessing in Data Mining
QIAN Hong
(Shanghai Zhonghua College of Vocational Technology, Shanghai 201404,China)
Abstract: The data preprocessing is one of important steps in data mining, we wont get such high level result of data mining unless we have pretreated the data into an easy-to-go one. The data preprocessing can define as the operations as followings: data cleaning, data integration, data conversion, data reduction.
Key words: data cleaning;data integration;data conversion;data reduction
随着信息技术的飞速发展,计算机的使用早已深入到人们的工作、生活的方方面面了,计算机中存储着海量的关于人类活动的数据。如何从这海量的数据中挖掘中有用的信息,已成为整个社会和信息产业界关注的问题,但现实世界中的数据库往往是不完整、易丢失数据或易出现数据的不一致性等问题。所以在利用这些数据进行数据挖掘之前要进行数据的预处理,让处理后的数据更加便于得到高质量的挖掘结果,把挖掘出来有用的信息和知识应用到预测、市场分析、欺诈检测等领域。
1 数据预处理概述
数据库中的数据有时是不完整、含有噪声、不一致的。数据的不完整主要是在数据采集时认为不重要而未采集,或者是设备故障原因导致数据丢失等造成的;数据在输入的过程中的输入不准确会产生噪声;不同数据源中相同属性字段格式可能不一致等这些数据的不正常现象都要进行修正。数据预处理包括数据清理、数据集成、数据转换、数据归约等技术。
2 数据预处理技术
2.1 数据清理技术
数据清理技术主要是填充缺失的值、光滑噪声、纠正数据中的不一致。
2.1.1 填充缺失的值
填充缺失的值可以使用属性的平均值来填充。比如用户在填写注册信息中的“年收入”时未填写,这时就可以用所有已填写“年收入”的平均值来填充缺失的值。
利用缺省值来填充,例如对未填写的“年收入”属性都用“未知”填充,但当某属性值缺失的较多时,采用这种方法可能会导致错误的挖掘结果。
根据其他用户填写的信息来推断该用户缺失的值,例如:寻找相似或相同职业和工龄的记录来推断这类人的“年收入”,并利用这些记录的“年收入”的均值进行缺失值的填充。
另外还要可以使用回归分析、贝叶斯计算公式或决策树技术预测最有可能值来填充缺失值。
2.1.2 光滑噪声
噪声是在测量一个变量时可能出现的测量值相对于真实值的偏差或错误。平滑噪声就是去除噪声,将连续的数据离散化,增加粒度。处理噪声常用的方法有分箱法、聚类法。
分箱法:先对记录集按目标属性值的大小进行排序,然后是把待处理的数据按照一定的规则(如采用统一权重、统一区间或用户自定义区间法)放进一些箱子中,考察每一个箱子中的数据。分箱后要对分箱中的数据进行平滑处理以便去除数据中的噪声。可以对同一箱中的数据求平均值,用平均值替代该箱中的所有数据;可以用距离较小的边值替代箱中间的每一个数据,即按边界值平滑;可以取箱子的中值来替代箱子中的所有数据,即按中值平滑。
聚类法:将数据对象分组成多个簇,分在同一个簇内的所有对象具有相似性,不同簇内的对象具有较大的差异性,落在簇之外的孤立点一般被视为噪声清除掉。k-Means是一种应用广泛的聚类算法,k-Means算法以k为参数,把n个对象分为k个簇,使簇内具有较高的相似度,而簇间的相似度低。相似度的计算根据簇内对象的平均值(簇的质心或重心)来进行。
2.1.3 纠正数据的不一致
输入过程中的输入错误、同一属性在不同的数据库中的
文档评论(0)