关于数据仓库的数据清洗方法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于数据仓库的数据漪洗奇法研究 摘要 在当今世界,金业髂息诧熬要求越来越漶蝴,其中一个重要煎的方西 藏慧企遂麓鼗捃戆管理,校撰“述去蘑是篷簸,蹬寨戆盘是楚蔽、(garbage out)”这祭滕理,为了支持.正确决策,就要求所管理的数据 in,garbage 可靠,没有错误,能准确地反映企业的实际情况,因此企业数据质艟的管 理正在获得越来越多的芙注。数据清洗是提潞数据质量的重要途径。 数掭仓瘁瑟遣熏楚金数信惑乾翟襄懿薰要侉躐。数蕹仓瘁楚露趣差逛 静、爨减戆、不可更新的、隧时闺不繇交讫懿数据集台。它是决策支持懿 基础,数据仓库中数据的难确性对于避免做出错误的决策是至濑熬耍的。 但是,由于数据仓库中的数据来自多种业务数据源,这些数据源谢能是存 穗在不嚣翡硬箨平台上,嫒躅不鞫夔操箨系统,强嚣及这些数据源中获彀 寒熬数攥中不可避免速梅褒~些不一致豹数攒。数据清洗鹭蠢静辘是要簿 决E}}。t述原因产生的数黼质量问题,因此数据清洗被认为是建娆数据仓库 所臻解决的最重要的问题之一。数据质量问蹶中的一种常见情况魁~个现 实实钵可能由多个不寒金鞠同载记录来表示,这样弱记录被称佟捆{默重复 记录(approximatelyduplicatedrecords)。捡溺秘消除穗经重复谗录楚数瑟瀵 洗和撼高数据质量要解抉的主要问题之一。搽测相{娃重复记录静避程也被 称为记录匹配过程。 本文在对当前的数据清洗问题,特别鼹搽测和消除重复记泶方张,做 了凳分懿磺究螽,提爨了纂予RDBMS鼗语录嚣配方法器溃滁数蒸仓瘴中稳 议鬟夔记录静方法,潋期淄除数据仓疼中静$g戗重复记录。邋避大数据塞 的燕黢,证明本文提出的消除相似重复记录的方法是行之有效的。 关键串: 数疆硷库数据矮囊数箨涛凌摆戳重复谑录记录疆蘸 基于数据仓库的数据滑洗方法研究 Abstract of Data Method ResearchCleaning BasedonData协台rehouse IneurrclIt of informationizationismuch world,therequiremententerprise arl of data. more which is enterprise immient,in importantaspectmanagement Basedthe out”,data demand of“Garbagein,garbage managed uponprinciple mistakeand actual situationfor reliable,no trulyreflectingenterprise ofdata tomake decision.Therefore supposingright managementquality data a methodto is attention.HoweveLcleaningsignificant

文档评论(0)

cxmckate + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档