《数据清洗》1-数据清洗概述.pptx

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第1章数据清洗概述

1.1数据清洗基础

数据清洗是指把“脏数据”彻底洗掉,包括检查数据一致性,处理无效值和缺失值等,从而提高数据质量。

数据清洗(Datacleansing/Datacleaning/Datascrubbing)可以有多种表述方式,其定义依赖于具体的应用,它的定义在不同的应用领域不完全相同。

数据清洗的对象可以按照数据清洗对象的来源领域与产生领域进行分类。前者属于宏观层面的划分,后者属于微观层面的划分。

1)数据来源领域目前在数字化应用较多的领域都涉及到数据清洗,如数字化文献服务、搜索引擎、金融领域、政府机构等,数据清洗的目的是为信息系统提供准确而有效的数据。

2)数据产生领域在微观方面,数据清洗的对象分为模式层数据清洗与实例层数据清洗。其中模式层是指存储数据的数据库结构,而实例层是指在数据库中具体存储的数据记录。

实例层数据清洗的主要任务是过滤或者修改那些不符合要求的数据,主要是包含不完整的数据、错误的数据和重复的数据3大类。

不完整的数据也叫做缺失数据(缺失值),是指在该数据中的一些应该有的信息缺失。

错误数据是指在数据库中出现了错误的数据值,错误值包括输入错误和错误数据,输入错误是由原始数据录入人员疏忽而造成的,而错误数据大多是由一些客观原因引起的。

重复数据也叫作“相似重复记录”,或是“冗余的数据”。它指同一个现实实体在数据集合中用多条不完全相同的记录来表示。

数据清洗的原理为:利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要求的数据。

(1)手工清洗手工清洗是通过人工对录入的数据进行检查。(2)自动清洗自动清洗是由机器进行相应的数据清洗。

此外,随着数据挖掘技术的不断提升,在自动清洗中常常使用清洗算法与清洗规则来帮助完成。

数据清洗的总体流程

在大数据清洗中具体的数据清洗规则主要包括有:非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核、记录数检核等。

数据清洗的常用方法

1.缺失值处理方法在数据集中,若某记录的属性值被标记为空白或“-”等,则认为该记录存在缺失值(空值),它也常指不完整的数据。

对于缺失数据的清洗方法较多,如将存在遗漏信息属性值的对象(元组,记录)删除;或者将数据过滤出来,按缺失的内容分别写入不同数据库文件并要求客户或是厂商重新提交新数据,要求在规定的时间内补全,补全后才继续写入到数据仓库中

2.错误数据处理方法错误数据是指数据库实例中某些不为空的属性值是错误的,例如属性域错误、拼写错误、格式错误等。

错误数据包含格式内容问题数据和逻辑问题数据两类。

数据清洗的评估实质上是对清洗后的数据的质量进行评估,而数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。

在进行数据质量评估时,要根据具体的数据质量评估需求对数据质量评估指标进行相应的取舍。

用于数据清洗质量测评的真实脏数据集分为有人工标注错误数据的脏数据集和无人工标注的脏数据集。

数据质量与数据仓库

数据质量正是企业应用数据的瓶颈,高质量的数据可以决定数据应用的上限,而低质量的数据则必然拉低数据应用的下限。因此数据清洗的目的就是为了真正提高数据质量。

数据质量一般指数据能够真实、完整反映经营管理实际情况的程度。

对国内某企业数据质量问题进行的调研显示如下:常见数据质量问题中准确性问题占33%,完整性问题占28%,可用性问题占24%,一致性问题占8%,这在一定程度上代表了国内企业面临的数据问题。

常见的数据质量问题可以根据数据源的多少和所属层次分为四类。第一类,单数据源定义层第二类,单数据源实例层第三类,多数据源的定义层第四类,多数据源的实例层

在不同的学科背景下,数据质量需求的表示方式各不相同。学术界的研究多聚焦于数据内容质量的提升,特别是缺失数据补全、数据去重和错误数据纠正。

1)完整性约束2)数据清洗规则3)用户需求

数据仓库(DataWarehouse)简称DW,顾名思义,数据仓库是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,并对多样的业务数据进行筛选与整合。

数据仓库在大数据系统中起着承上启下的作用,一方面它从各种数据源中提取所需的数据,另一方面对这些数据集合进行存储、整合与挖掘,从而最终帮助企业的高层管理者或者业务分析人员做出商业战略决策或商业报表。

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。在

您可能关注的文档

文档评论(0)

阿弥陀佛 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档