《大数据基础与实务》课件 11.项目三 任务三 数据清洗.pptx

《大数据基础与实务》课件 11.项目三 任务三 数据清洗.pptx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据基础与实务项目三大数据采集与清洗

数据清洗任务三

任务描述知识准备课堂研讨拓展训练目录CONTENTSONETWOTHREEFOUR

数据质量的高低严重影响了工业、经济等社会的方方面面,数据质量问题及其所导致的知识和决策错误已经在全球范围内造成了恶劣的后果,严重困扰着信息社会,大数据的广泛应用对数据质量的保障提出了迫切需求。数据清洗是数据质量管理的重要问题,其内容十分丰富,包括缺失值处理、实体识别与真值发现,错记的主动发现和修复等问题。小明对此产生了疑惑:什么是数据清洗呢?如何清洗“脏数据”呢?任务描述

知识准备数据清洗是一种对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。定义数据清洗的概念一

知识准备“脏数据”的类型二残缺数据重复数据“脏数据”的类型错误数据这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如:数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。对于这一类数据需将重复数据记录的所有字段导出来,让客户确认并整理。

知识准备数据清洗流程三在实际操作中,数据清洗通常会占据分析过程的50%~80%的时间。图3-7为浅层次的数据清洗流程图。

知识准备三数据清洗流程(一)预处理阶段查看数据看元数据抽取一部分数据,使用人工查看方式将数据导入处理工具12

知识准备三数据清洗流程(二)阶段1:缺失值清洗缺失值是最常见的数据问题,处理缺失值也有很多方法。首先,确定缺失值范围。对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略,可用图3-8表示。图3-8数据的重要性与缺失率关系比例图

知识准备三数据清洗流程(三)阶段2:格式内容清洗时间、日期、数值、全半角等显示格式不一致内容中含有不该存在的字符内容与该字段应有内容不符

知识准备三数据清洗流程(四)阶段3:逻辑错误清洗这部分的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果走偏。主要包含去重、去除不合理值以及修正矛盾内容。去重A去除不合理值B修正矛盾内容C

知识准备三数据清洗流程(五)阶段4:非需求数据清洗在进行数据清洗时人们往往会把看上去不需要但实际上对业务很重要的字段删了,又或者某个字段觉得有用,但又没想好怎么用,不知道是否该删。此时,如果数据量没有大到不删该字段就无法处理,则能不删的字段尽量不删。此外,应该勤备份数据,以免误删数据影响后续分析。(六)阶段5:关联性验证如果数据有多个来源,则有必要进行关联性验证。例如,同时获得某品牌汽车的线下购买信息,以及相应汽车品牌的电话客服问卷信息,两者通过姓名和手机号关联。同一个人线下登记的车辆信息和线上问卷问出来的车辆信息如果不是同一辆,则该条数据需要调整或去除数据。

课堂研讨小明现在收集到一份“链家”平台广州地区的房屋出租信息,但不知道该用什么工具对这份数据进行清洗,请你帮帮他。

拓展训练01请使用至少两种工具对采集后的“链家”平台数据进行数据清洗。

谢谢观看

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档