- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库中的数据清洗 在一定程度上可以手工实现。通过人工检查,只要投入足够的人力物力财力,也能发现所有错误, 但效率低下。 2)数据清洗-缺省值清洗 (1)确定缺省值范围 (2)去除不需要的字段 (3)填充缺省值内容 (4)重新获取数据 3)数据清洗-格式与内容清洗 一般情况下,数据是由用户产生的,因此也可能存在格式和内容不一致的情况,所以需要在模型构建前先进行数据格式和内容的清洗。 数据清洗的工具介绍 1)OpenRefine OpenRefine是一种新的具有数据画像、清洗、转换等等功能的工具,它可以观察和操纵数据。 2)DataCleaner DataCleaner是一个简单,易于使用的数据质量的应用工具,旨在分析,比较,验证和监控数据。它能够将凌乱的半结构化数据集转换为所有可视化软件,并可以读取的干净可读的数据集。此外,DataCleaner还提供数据仓库和数据管理服务。 3)Kettle Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。 4)Beeload Beeload是由北京灵蜂纵横软件有限公司研发的一款ETL工具。集数据抽取、清洗、转换及装载于一体,通过标准化企业各个业务系统产生的数据,向数据仓库提供高质量的数据,从而为企业高层基于数据仓库的正确决策分析提供了有力的保证。 6.3 数据标准化概述 在大数据分析前,为了统一比较的标准,保证结果的可靠性,需要对原始指标数据进行标准化处理。 目前有许多中数据标准化方法,常用的有最小-最大标准化、Z-score标准化和按小数定标标准化等。 1)Min-Max标准化 ? min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间【0,1】中的值 2)z-score标准化 z-score标准化基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将属性A的原始值v使用z-score标准化到v的计算方法是: ???? 新数据=(原数据-均值)/标准差 3)Decimal scaling Decimal scaling通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x使用decimal scaling标准化到y的计算方法是:y=x/(10*j)???? 其中,j是满足条件的最小整数。 数据标准化的实例 本章小结 (1)大数据存储通常是指将那些数量巨大、难于收集、处理、分析的数据集持久化到计算机中。在进行大数据分析之前,首先的步骤就是要将海量的数据存储起来,以便今后的使用。 (2)大数据的存储方式主要有分布式存储、NoSQL数据库、NewSQL数据库以及云数据库四种。 (3)大数据存储中的核心技术主要有基于MPP架构的新型数据库集群、基于Hadoop的技术扩展以及大数据一体机等。 (4)数据清洗就是指把“脏数据”彻底洗掉,包括检查数据一致性,处理无效值和缺失值等,从而提高数据质量。在实际的工作中,数据清洗通常占开发过程的50%-70%左右的时间。 (5)数据标准化是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值。 大数据分析 第六章 大数据存储与清洗 本章学习目标 了解大数据存储的定义 了解大数据存储的特征 了解大数据清洗的定义 了解大数据清洗的环境与实现 了解数据标准化的定义 掌握openrefine数据清洗工具的使用 6.1 大数据存储概述 大数据存储通常是指将那些数量巨大、难于收集、处理、分析的数据集持久化到计算机中。在进行大数据分析之前,首先的步骤就是要将海量的数据存储起来,以便今后的使用。因此,大数据的存储是数据分析与应用的前提。 在大数据时代,数据获取的方式有这样几类:爬虫抓取、用户留存、用户上传、数据交易和数据共享。? 大数据的存储中不仅存储数据的容量较大,更重要的是人们可以从存储的数据间找到相互的关系,从而能够对数据进行比对和分析,最终产生商业价值。 大数据存储的类型主要有以下三种:块存储、文件存储和对象存储。 1)块存储 (1)DAS:是直接连接于主机服务器的一种储存方式,也叫作直连式存储。 (2)SAN:是一种用高速(光纤)网络联接专业主机服务器的一种储存方式 (3)云存储的块存储:具备SAN的优势,而且
文档评论(0)