数据清洗研究.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据清洗研究.doc

数据清洗研究 摘 要:本文简要的论述了数据清洗的由来及其重要性,系统的介绍和总结了数据清洗的定义、存在的问题、步骤、评价标准和常见的一些数据清洗算法。针对目前的研究现状,对数据清洗将来方向进行了预测。 关键词:数据挖掘;数据准备;数据清洗;数据清洗算法 Research on Data Cleaning Abstract:This paper introduces brieflyorigin and the importance of data cleaning. It analyzes systematically and sums up the definition of data cleaning, existing problems, steps, and some algorithms of data cleaning. Aiming at the position of research on data cleaning, the author makes a prospect of the development of data cleaning. Key words: data mining; data preparation; data cleaning; data cleaning algorithm 1 概述 人类正处在信息“爆炸”时代,面对浩如烟海的数据,怎么组织和存数数据,才能使人们从各种各样巨量的数据集中快速高效地获取所需的信息,成为人们迫切关心的问题。数据仓库与数据挖掘的出现为人们解决这些问题带来新的有效途径。与传统的关系数据库相比,数据仓库是一种多维化的信息组织技术,它面向复杂的数据分析以支持决策过程的,集成了一定范围内的所有数据,是面向主题的、整合的、相对稳定的,并随时变化不断更新的数据集合。对数据的时效性要求不高,更注重历史数据。数据挖掘是一种有效利用信息的工具,主要是基于人工智能、机器学习、统计学等技术,高度自动化地分析组织原有的数据,进行归纳性的推理,从中挖掘出潜在的模式,预测客户行为,帮助组织的决策者正确判断即将出现的机会,调整策略,减少风险,进行正确的决策。搭建在数据仓库上的数据挖掘将会提供更加高效准确的数据分析。 数据仓库作为数据挖掘的数据预处理阶段,主要包括以下几个重要的步骤:外部数据源的选取,数据抽取,数据清洗,数据转换。其中,数据仓库的外部数据源所提供的数据内容并不完美,存在着“脏数据”,即数据有空缺、噪音等缺陷。而且在数据仓库的各数据之间,其内容也存在着不一致的现象,为了减少这些“脏数据”对数据仓库分析结果的影响程度,必须采取各种有效的措施对其进行处理,这一过程称为“数据清洗(Data Cleaning)”。 2 数据抽取完成之后的数据集所存在的问题 2、1 不完整的数据这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。 错误的数据这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等 重复的数据对于这一类数据——特别是维表中会出现这种情况——将重复数据记录的所有字段导出来,让客户确认并整理。 “脏数据”会对建立的数据仓库系统造成不良影响,扭曲从数据中获得的信息,影响数据仓库的运行效果,进一步影响数据挖掘效能,最终影响决策管理。因此,为了使数据仓库系统中的记录更准确、一致,消除重复和异常记录就变得很重要,所以数据预处理工作是相当必要的。数据清洗作为数据预处理的一个重要环节,在数据仓库构建过程中占据重要位置。 对于任何数据仓库而言,数据清洗过程都是必不可少的。 3 数据清洗定义 所谓的数据清洗,是在数据仓库中去除冗余,清除错误和不一致数据的过程,并需要解决元组重复问题。 数据清洗并不是简单地用优质数据更新记录,它还涉及数据的分解与重组。 4 数据清洗的步骤 4.1 定义和确定错误的类型 4.1.1 数据分析 数据分析是数据清洗的前提与基础,通过详尽的数据分析来检测数据中的错误或不 一致情况,除了手动检查数据或者数据样本之外,还可以使用分析程序来获得关于数据属性的元数据,从而发现数据集中存在的质量问题。 4.1.2 定义清洗转换规则 根据上一步进行数据分析得到的结果来定义清洗转换规则与工作流。根据数据源的个数,数据源中不一致数据和“脏数据”多少的程度,需要执行大量的数据转换和清洗步骤。 要尽可能的为模式相关的数据清洗和转换指定一种查询和匹配语言,从而使转换代码的自动生成变成可能。 4.2 搜寻并识别错误的实例 4.2.1 自动检测属性错误 检测数据集中的属性错误,需

您可能关注的文档

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档