大数据导论思维第3章 大数据预处理.pptxVIP

大数据导论思维第3章 大数据预处理.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据导论第三章CONTENTS目录PART 05 离散化和概念层次树PART 01 大数据预处理概述PART 06 ETL工具KettlePART 02 数据清洗方法PART 07 数据转换工具SqoopPART 03 数据集成与转换方法PART 08 作业PART 04 数据削减PART 01 大数据预处理概述大数据预处理负责将分散的、异构数据源中的数据如关系数据、网络数据、日志数据、文件数据等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据库中,成为通过数据分析、数据挖掘等提供决策支持的数据。大数据预处理整体架构数据预处理主要包括:数据清洗(Data Cleaning)数据集成(Data Integration)数据转换(Data Transformation)数据消减(Data Reduction)大数据预处理将数据划分为结构化数据和半结构化/非结构化数据,分别采用传统ETL工具和分布式并行处理框架来实现。大数据预处理整体架构大数据预处理整体架构结构化数据可以存储在传统的关系型数据库中非结构化数据可以存储在新型的分布式存储中半结构化数据可以存储在新型的分布式NoSQL数据库中大数据预处理整体架构结构化数据和非结构化数据之间的数据可以按照数据处理的需求进行迁移。比如:为了进行快速并行处理,需要将传统关系型数据库中的结构化数据导入到分布式存储中,可以利用Sqoop等工具,先将关系型数据库的表结构导入分布式数据库(Hive),然后再向分布式数据库的表中导入结构化数据。数据质量问题分类数据清洗在汇聚多个维度、多个来源、多种结构的数据之后,对数据进行抽取、转换和集成加载。在这个过程中,除了更正、修复系统中的一些错误数据之外,更多的是对数据进行归并整理,并储存到新的存储介质中。其中,数据的质量至关重要。常见的数据质量问题可以根据数据源的多少和所属层次分为四类:单数据源定义层单数据源实例层多数据源的定义层多数据源的实例层数据质量问题分类数据质量问题分类单数据源定义层违背字段约束条件 比如:日期出现6月31日字段属性依赖冲突 比如:两条记录描述同一个人的某一个属性,但数值不一致违反唯一性 比如:同一个主键ID出现了多次单数据源实例层单个属性值含有过多信息、拼写错误、空白值、噪音数据、数据重复、过时数据等数据质量问题分类多数据源的定义层同一个实体的不同称呼 比如:custom_id, custom_num同一种属性的不同定义 比如:字段长度定义不一致、字段类型不一致等多数据源的实例层数据的维度、粒度不一致 比如:有的按GB记录存储量,有的按照TB记录存储量;有的按照年度统计,有的按照月份统计数据重复、拼写错误等PART 02 数据清洗方法现实世界的数据常常是有噪声、不完全的和不一致的。数据清洗过程通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致的数据。遗漏数据处理假设在分析一个商场销售数据时,发现有多个记录中的属性值为空,如顾客的收入属性,对于为空的属性值,可以采用以下方法进行遗漏数据处理:忽略该条记录。手工填补遗漏值。利用缺省值填补遗漏值。利用均值填补遗漏值。利用同类别均值填补遗漏值。利用最可能的值填补遗漏值。最后一种方法是一种较常用的方法。噪声数据处理噪声是指被测变量的一个随机错误和变化。下面通过给定一个数值型属性,如价格,来说明平滑去噪的具体方法。方法被分为四种:Bin方法聚类方法人机结合检查方法回归方法噪声数据处理Bin方法Bin方法通过利用相应被平滑数据点的周围点(近邻),对一组排序数据进行平滑。排序后数据分配到若干桶(称为Buckets或Bins)中。对Bin的划分方法一般有两种,一种是等高方法,即每个Bin中的元素的个数相等;另一种是等宽方法,即每个Bin的取值间距(左右边界之差)相同。首先对价格数据进行排序,然后将其划分为若干等高度的Bin,即每个Bin包含三个数值Bin均值平滑对每个Bin中所有值均用该Bin的均值替换。图中第一个Bin中4、8、15均用该Bin的均值9替换Bin边界平滑对于给定的Bin,利用每个Bin的边界值(最大值或最小值),替换该Bin中的所有值。一般讲,每个Bin的宽度越宽,其平滑效果越明显。例如:噪声数据处理噪声数据处理聚类方法通过聚类分析可帮助发现异常数据。相似或相邻近的数据聚合在一起形成了各个聚类集合,而那些位于这些聚类集合之外的数据对象,自然而然就被认为是异常数据。噪声数据处理人机结合检查方法通过人与计算机检查相结合方法,可以帮助发现异常数据。如:利用基于信息论方法可帮助识别用于分类识别手写符号库中的异常模式;所识别出的异常模式可输出到一个列表中;然后由人对这一列表中的各异常模式进行检查,并最终确认无用的模式(真正异常的模式)。这种人机

文档评论(0)

132****9295 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档