通过数据分布特征及箱型图的方法来识别.ppt

通过数据分布特征及箱型图的方法来识别.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章 大数据管理 本章内容 3.1 大数据的清洗 3.1.1 数据质量 3.1.2 数据清洗的作用 3.1.3 数据清洗的方法和过程 3.1.4 数据清洗实例 3.2 数据类型和数据转换 3.2.1 数据类型 3.2.2 数据转换 3.3 大数据的提取和加载 实验3 数据处理 3.1 大数据的清洗 大数据时代下,管理的关键依靠着数据,但随着信息量的不断增长、智慧工具的不断涌现,如何对数据进行有效清洗实现数据的真实性,有效性,唯一性变得十分具有挑战。为了使数据的记录更准确、一致,消除重复和异常记录就变得很重要,所以数据预处理工作是相当必要的。数据清洗作为数据预处理的一个重要环节,在大数据分析过程中占据重要位置。 3.1.1 数据质量 1.数据质量的四大要素 在技术发展的不同阶段,对数据质量有不同的定义和标准。早期对数据质量的评价标准主要以数据准确性为出发点,随着信息系统功能和定位的不断延伸,用户关心的重点逐步由数据准确性扩展至合法性、一致性等 方面。归纳起来,数据质量具有四大要素: ①完整性 ②一致性 ③准确性 ④及时性 2. 数据质量管理的关键 ①制订规范的数据质量度量标准 ②建立有效的数据质量监管体系 ③建立完善的数据质量管理制度 3.1.2 数据清洗的作用 数据清洗就是按照一定的规则把“脏数据”“洗掉”,过滤不符合要求的数据,主要包括不完整的数据、错误的数据、重复的数据,然后将过滤的结果交给业务主管部门,确认是否过滤掉还是修正之后再进行提取。因此如何对数据进行有效的清理和转换,使之成为符合数据分析要求的数据源,是影响数据分析准确性的关键因素。 3.1.3 数据清洗的方法和过程 1. 数据清洗的方法 ① 通过人工检查 ② 通过专门编写的应用程序 ③ 针对特定应用领域的数据清理 ④ 针对与特定应用领域无关的数据清理 3.1.3 数据清洗的方法和过程 2. 数据清洗的过程 第一阶段:数据分析、定义错误类型 第二阶段:搜索、识别错误记录 第三阶段:修正错误 3.1.4 数据清洗的实例 DataEye 原始数据源提供一组游戏下载时长数据集 如果直接计算游戏平均下载时长,得到的结果为23 062.57 秒,约6.4小时,与实际情况严重不符,说明这一数据集受到噪声数据的显著影响。 3.1.4 数据清洗的实例 将数据集等分为240 300 个区间,找到数据集中区域[0,3 266.376],对取值之间的数据做箱型图分析,对此区间外的数据剔除离群值,重新计算平均下载时长 最后计算目标数据源的平均下载时长为192.93 秒,约3.22 分,符合实际情况。 通过数据分布特征及箱型图的方法来识别、剔除噪声 数据较为快捷且效果显著。 3.2.1 数据类型 1. 整理数据类型 (1)INT(或INTEGER)数据类型;(2)SMALLINT 数据类型 (3)TINYINT 数据类型;(4)BIGINT 数据类型 2. 浮点数据类型 (1)REAL 数据类型;(2)FLOAT 数据类型 (3)DECIMAL 数据类型;(4)NUMERIC 数据类型 3. 二进制数据类型 (1)BINARY 数据类型 ;(2)VARBINARY 数据类型 3.2 数据类型和数据转换 3.2.1 数据类型 4. 逻辑数据类型 BIT 数据类型 5. 字符数据类型 (1)CHAR 数据类型;(2)NCHAR 数据类型 (3)VARCHAR 数据类型;(4)NVARCHAR 数据类型 6. 文本和图像数据类型 (1)TEXT 数据类型;(2)NTEXT 数据类型;(3)IMAGE 数据类型 7. 日期和时间数据类型 DATETIME 数据类型用于存储日期和时间 3.2.2 数据转换 数据转换是将数据从一种表示形式变为另一种表示形式的过程。由于每一个软件后台数据库的构架与数据的存储形式都是不相同的,因此就需要对数据进行转换。例如,对两个操作数进行运算,当操作数的类型不同,而且不属于基本数据类型时,经常需要将操作数转换为所需要的类型,这个过程即为强制类型转换。强制类型转换有两种形式:显式强制类型转换和隐式强制类型转换。 3.3 大数据的提取和加载 大数据的提取和加载是指将转换好的数据保存到数据仓库中去。大数据在加载时一般采用两种方式: ①完全刷新加载 从技术角度上说,完全刷新加载比增量提取和加载要简单得多,它适 用于数据量不大并且时间代价和条件代价较小的情况。 ②增量提取和加载 如何精准快速地捕获变化的数据是实现数据增量加载的关键。 (1)触发器方式;(2)时间戳方式;(3)全表比对方式 (4)日志表方

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档