- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种新的数据清洗方法的研究与实现.pdf
一种新的数据清洗方法的研究与实现
董金新‘川,亓民勇Ⅲ,张谢华瞳3,李卉㈦
‘11(聊城大学计算机学院,252059)
嘲(中国矿业大学计算机学院,221008)
摘要:数据仓库里面存在大量脏数据,为了更好的支持决策分析,必须清洗数据。本文提出一种新的
基于数据挖掘关联规则的清洗算法,并对其进行了实验分析。
关键词:数据清洗数据仓库关联规则
The andrealizationofanewkindofdata
study cleansing
approach
DONGJinxin Hui乜1
ci】,QIMinyong…,ZHANGXiehua‘21,LI
of University,252059)
Computer,LiaoCheng
n1(Co!lege
of of and 1
㈨(CollegeComputer,ChinaUniversityMiningTechnolog,22008)
e-maih
dongjinxin@126.tom
Abstract:Therearealotof in tO
datadatawarehouse,SOdatamustbecleansed decision
dirty support
better.Anewkindofdata basedassociationruleis the is
analysis cleansingalgorithm given,andalogorithm
’
test.
analysedby
rule
words:data datawarehouseassociation
Key cleansing
1.引言
随着计算机技术的飞速发展,越来越多的企业认识到数据库应用的发展、数据量爆炸
性地增加已使得传统的数据库系统不能满足他们的需要,要想在竞争中取胜,获得更大的
收益,必须使用数据仓库技术来自动快速地获取企业有用的信息,以为企业提供快速、准
确和方便的决策支持。对于数据仓库系统而言,数据质量是一个非常关键的问题。以企业
Out”…,如果作为决策支持依据的数据仓库中
决策为例,正所谓”GarbageIn,Garbage
所存放的基础数据的质量达不到要求,也就是存在大量的脏数据,那么基于数据仓库的
OLAP和数据挖掘这类技术产生的结果也不会理想,甚至会产生错误的分析结果,从而误导
决策。所以,实施数据仓库必须保证数据仓库数据质量,因而必须进行数据清洗。
。 2.数据清洗定义及原理
数据清洗一直是数据仓库和决策支持系统相关研究中的一个关键问题‘2】f3】o数据清洗
的定义为一个减少错误和不一致性、解决对象识别的过程【4】其原理是利用有关技术如数
理统计、数据挖掘或预定义的清理规则将脏数据转化为满足要求的数据【51。脏数据从源系
175
统进入数据仓库之前,即
文档评论(0)