- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据清洗
01ONE数据清洗
课堂研讨任务描述知识准备拓展训练CONTENTS目录CONTENTSONE
数据质量的高低严重影响了工业、经济等社会的方方面面,数据质量问题及其所导致的知识和决策错误已经在全球范围内造成了恶劣的后果,严重困扰着信息社会,大数据的广泛应用对数据质量的保障提出了迫切需求。数据清洗是数据质量管理的重要问题,其内容十分丰富,包括缺失值处理、实体识别与真值发现,错记的主动发现和修复等问题。张明对此产生了疑惑:什么是数据清洗呢?如何清洗“脏数据”呢?任务描述
知识准备数据清洗是一种对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。定义数据清洗的概念一
知识准备“脏数据”的类型二残缺数据重复数据“脏数据”的类型错误数据这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如:数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。对于这一类数据需将重复数据记录的所有字段导出来,让客户确认并整理。
知识准备数据清洗流程三在实际操作中,数据清洗通常会占据分析过程的50%~80%的时间。图3-7为浅层次的数据清洗流程图。
知识准备三数据清洗流程(一)预处理阶段查看数据看元数据抽取一部分数据,使用人工查看方式将数据导入处理工具12
知识准备三数据清洗流程(二)阶段1:缺失值清洗缺失值是最常见的数据问题,处理缺失值也有很多方法。首先,确定缺失值范围。对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略,可用图3-8表示。图3-8数据的重要性与缺失率关系比例图
知识准备三数据清洗流程(三)阶段2:格式内容清洗时间、日期、数值、全半角等显示格式不一致内容中含有不该存在的字符内容与该字段应有内容不符
知识准备三数据清洗流程(四)阶段3:逻辑错误清洗这部分的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果走偏。主要包含去重、去除不合理值以及修正矛盾内容。去重A去除不合理值B修正矛盾内容C
知识准备三数据清洗流程(五)阶段4:非需求数据清洗在进行数据清洗时人们往往会把看上去不需要但实际上对业务很重要的字段删了,又或者某个字段觉得有用,但又没想好怎么用,不知道是否该删。此时,如果数据量没有大到不删该字段就无法处理,则能不删的字段尽量不删。此外,应该勤备份数据,以免误删数据影响后续分析。(六)阶段5:关联性验证如果数据有多个来源,则有必要进行关联性验证。例如,同时获得某品牌汽车的线下购买信息,以及相应汽车品牌的电话客服问卷信息,两者通过姓名和手机号关联。同一个人线下登记的车辆信息和线上问卷问出来的车辆信息如果不是同一辆,则该条数据需要调整或去除数据。
课堂研讨张明现在收集到一份“链家”平台广州地区的房屋出租信息,但不知道该用什么工具对这份数据进行清洗,请你帮帮他。
拓展训练01请使用至少两种工具对采集后的“链家”平台数据进行数据清洗。
数据清洗方法现实世界的数据常常是有噪声、不完全的和不一致的。数据清洗过程通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致的数据。
遗漏数据处理假设在分析一个商场销售数据时,发现有多个记录中的属性值为空,如顾客的收入属性,对于为空的属性值,可以采用以下方法进行遗漏数据处理:忽略该条记录。手工填补遗漏值。利用缺省值填补遗漏值。利用均值填补遗漏值。利用同类别均值填补遗漏值。利用最可能的值填补遗漏值。最后一种方法是一种较常用的方法。
噪声数据处理噪声是指被测变量的一个随机错误和变化。下面通过给定一个数值型属性,如价格,来说明平滑去噪的具体方法。方法被分为四种:Bin方法聚类方法人机结合检查方法回归方法
噪声数据处理Bin方法Bin方法通过利用相应被平滑数据点的周围点(近邻),对一组排序数据进行平滑。排序后数据分配到若干桶(称为Buckets或Bins)中。对Bin的划分方法一般有两种,一种是等高方法,即每个Bin中的元素的个数相等;另一种是等宽方法,即每个Bin的取值间距(左右边界之差)相同。
噪声数据处理例如:首先对价格数据进行排序,然后将其划分为若干等高度的Bin,即每个Bin包含三个数值
Bin均值平滑对每个Bin中所有值均用该Bin的均值替换。图中第一个Bin中4、8、15均用该Bin的均值9替换Bin边界平滑对于给定的Bin,利用每个Bin的边界值(最大值或最小值),替换该Bin中的所有值。一般讲,每个Bin的宽度越宽,其平滑效果越明显。
噪声数据处理聚类方法通过聚类分析可帮助发现异常数据。相似或
您可能关注的文档
- 《蔬菜生产技术》课件——1.6 根菜类蔬菜识别.pptx
- 《蔬菜生产技术》课件——1.7 葱蒜类蔬菜识别.pptx
- 《蔬菜生产技术》课件——1.8 绿叶类蔬菜识别.pptx
- 《蔬菜生产技术》课件——2.1 蔬菜生产的合理安排.pptx
- 《桥梁上部施工技术 》——7-1悬索桥施工.pptx
- 《儒商文化》课件——儒家文化-概述及内容框架.pptx
- 《儒商文化》课件——儒家文化-古代丝绸之路.pptx
- 《儒商文化》课件——儒家文化-古代丝绸之路与中国经济贸易.pptx
- 《儒商文化》课件——儒家文化-先秦儒商典范.pptx
- 《儒商文化》课件——儒商文化-海外贸易 水路交通工具.pptx
- 中国风国潮商业计划书模版.docx
- 13 花钟 课件2024-2025学年统编版语文三年级下册.pptx
- 8.2二力平衡 课件(共26张PPT)2024-2025学年 人教版物理八年级下册.pptx
- 7.1 力 课件 (共25张PPT) 2024-2025学年人教版八年级下册.pptx
- 统编版四年级上册语文第七单元习作:写信 课件(共11张PPT).pptx
- 9.3 阿基米德原理 课件 (共16张PPT) 2024-2025学年沪科版物理八年级下学期.pptx
- 5.7三角函数的应用课件-2024-2025学年高一上学期数学人教A版(2019)必修第一册.pptx
- 信息服务业数据安全与隐私保护技术应用计划.docx
- 关于社区养老护理服务的创业计划书模板.docx
- 创业计划书文具店模板.docx
文档评论(0)