云计算世界-云计算资料和交流中心.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据应用人才培养系列教材 Python语言 刘 鹏 张 燕 总主编 李肖俊 主编 刘 河 钟 涛 副主编 大数据应用人才培养系列教材 13.1 数据清洗 第十三章 项目实战:数据分析 简介 大数据时代,数据便是掘金的黄金地带。企业大量的历史数据能否发挥其应有的价值,取决于企业采用什么样的分析手段,去发掘数据本身所蕴含的规律。数据分析人次炙手可热,已成为大数据时代企业争抢的焦点。本章,将以Python 技术为基础,通过实际案例的讲解来使大家对数据分析的流程达到定性的认识。同时,通过课程实验,提高大家的动手能力,为使大家成为数据分析人才做好启蒙教育。 13.1 数据清洗 第十三章 项目实战:数据分析 编码问题 通常,源数据分布在不同的业务流程之中。而不同的业务流程中对数据的要求、理解和规格各不相同。导致对同一数据对象的描述千差万别。因此,在清洗数据的过程中,首先要对数据的编码格式做统一要求。 对于数据项的约定可从以下几个方面进行: ◎命名规则:对于同一数据对象,其名称应当是唯一的。比如页面访问量这个字段,可能称作访问深度、分为PV数、页面浏览量等。 ◎数据类型:同一个数据对象的类型必须一致,而且表示方法唯一,如普通日期和时间戳的区分。 ◎计数方法:对于数值类型的数据,单位务必统一。如:重量单位,千克、公斤、克、斤等,在数据表中必须用唯一单位。 ◎约束条件:数据表之间的关系约定不能产生二义性。比如:表的主键、唯一性、外键约束等。 13.1 数据清洗 第十三章 项目实战:数据分析 缺失值分析 数据的缺失,主要包括记录的缺失和记录中某各字段信息的缺失。两者都会造成最终分析结果的不准确。下面,从缺失值产生的原因及处理方法进行介绍。 1 产生原因 缺失值产生的原因主要包括三大类,具体如下: ①出于信息安全的需求。由于某种原因无法获取,或者获取成本过高。 ②人为的信息遗漏。可能是由于个人主观认识不到位,导致的因人为因素产生的遗漏。也可能是由于数据获取设备的故障所引起的非人为原因产生的丢失。 ③字段值的缺失。某些情况下,缺失值不一定意味者着数据的错误。比如儿童的手机号码、个人收入等字段值。 2 数据值的缺失,通常会给数据分析带来如下影响: ①数据挖掘建模将丢失大量的有用信息。 13.1 数据清洗 第十三章 项目实战:数据分析 缺失值分析 ②数据挖掘模型表现出来的不确定性更加显著,数据背后蕴含的规律更难发掘。 ③字段的空值会导致数据分析过程陷入混乱,致使分析产生不可靠的结果。 3 应对策略 生活中我们所采集到的数据常错综复杂,其值的缺失也是很常见。那么我们该如何处理这些缺失值呢?常用的有三大类方法,即删除法、填补法和插值法。 ◎删除法:当数据中的某个变量大部分值都是缺失值,可以考虑删除改变量;当缺失值是随机分布的,且缺失的数量并不是很多是,也可以删除这些缺失的观测。 ◎替补法:对于连续型变量,如果变量的分布近似或就是正态分布的话,可以用均值替代那些缺失值;如果变量是有偏的,可以使用中位数来代替那些缺失值;对于离散型变量,我们一般用众数去替换那些存在缺失的观测。 ◎插补法:插补法是基于蒙特卡洛模拟法,结合线性模型、广义线性模型、决策树等方法计算出来的预测值替换缺失值。 13.1 数据清洗 第十三章 项目实战:数据分析 去除异常值 异常值,是指数据样本中的个别值,其数值明显偏离对应字段的所有观察值。异常值又称离群点。异常值的分析是检验数据集中是否存在录入错误以及不合常理的数据。去除异常值的方法主要包括: ◎统计分析法 通常对变量的取值做一个简单的量化统计,尤其是数值型字段。进而查看那些取值超出合法取值范围。最常用的统计方法是求最大值、平均值、最小值。用最小值和最大值确定正常取值范围。用平均值替代空白字段值,将超出合理取值的记录剔除采样数据。比如:个人信息中的年龄字段取值超过150 就属于异常取值,可考虑用平均取值替代。 ◎ 3δ分析法 通常,如果数据服从正态分布,在3δ思想的指导下,异常值被认定为与平均值偏差超过3倍标准差的数值。因为,在正态分布下,距离大于3倍标准差的数值的概率小与等于0.003,属于小概率事件。相反,若数据字段值不服从正态分布,可用远离平均值多少倍标准差约定异常数值。 13.1 数据清洗 第十三章 项目实战:数据分析 去除重复值与冗余信息 由于各种各样的原因,在获取的数据源中,经常存在重复的字段、重复的记录以及获取了与分析主题无关的数据项。这时,为了提高数据的质量,我们需要对源数据做去重处理和冗余处理。 对于重复数据的处理,我们通常采用的方法是“排序合并”。具体做法是:现将数据库表中的记录按照指定的规则排序

文档评论(0)

勤劳的小厮 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档