数据仓库数据挖掘chap3 数据预处理.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chap3 数据预处理 Chap3 数据预处理 Chap3 数据预处理 3.1 为什么要数据预处理? 3.2 数据清洗 3.3 数据集成 3.4 数据变换 3.5 数据归约 3.1 为什么要数据预处理? 3.1 为什么要数据预处理? 数据预处理的目的: • 原始数据库中的数据是从现实中提取而来,由于各种原因 导致数据库中存在着各种各样的脏数据。 • 原理“garbage in, garbage out ” ! • 为数据挖掘过程提供干净、准确、简洁的数据,提高数据 挖掘效率和准确性,是数据挖掘中非常重要的环节。 3.1.1 原始数据中存在的问题 3.1.1 原始数据中存在的问题 1.不一致——数据内涵出现不一致情况(如:同一部门编码 出现不同值) 2.重复 3.不完整——感兴趣的属性没有值 4.含噪声——数据中存在着错误、或异常(偏离期望值)的 数据 • 数据采集设备有问题; • 在数据录入过程发生了人为或计算机错误; • 数据传输过程中发生错误;如:由于技术限制(有限通 讯缓冲区); • 由于命名规则或数据代码不同而引起的不一致。 5.维度高 3.1.2 数据预处理的方法和功能 3.1.2 数据预处理的方法和功能 主要任务: 1.数据清洗 • 去掉噪声和无关数据 2.数据集成 • 将多个数据源中的数据结合起来存放在一个一致的数据存储中 3.数据变换 • 把原始数据转换成为适合数据挖掘的形式 4.数据归约 • 主要方法包括:数据立方体聚集,维归约,数值归约,离散化 和概念分层等 3.2 数据清理 3.2 数据清理 • 所谓数据清理,就是通过填写空 缺的值,平滑噪声数 据,识别,删除孤立 点,并解决不一致来清理数据。 • 数据清理任务 不完整数据清理 噪声数据清理 错误数据清理 3.2.1 不完整数据清理 3.2.1 不完整数据清理 • 数据并不总是完整的 某些属性值缺失的数据在现实数据源中是非常常见的! • 引起空缺值的原因 – 软件、设备异常 – 与其他已有数据不一致而被删除 – 因为误解而没有被输入的数据 – 在输入时,有些数据因为得不到重视而没有被输入 • 不完整数据的清理步骤 — 首先是检测出数据源中的不完整数据; — 然后再判断记录的可用性,不可用→ 删除 可用 → 缺失值处理 • 记录可用性的度量——属性缺失加权值(MWV) • 常见的缺失值处理方法 - 常量值替代法 unknow - 平均值替代法 income - 常见值替代法 客户类别 - 估算值替代法 income 3.2.2 噪声数据清理 3.2.2 噪声数据清理 • 噪声数据 ——是指在测量一个变量时可能出现的测量值相对于真实 值的随机误差或者方差。 • 常见的数据平滑方法 分箱 回归 聚类 1、分箱——通过考察相邻数据来确定最终值 –分箱:把待处理的数据按照一定的规则放进一些箱子中,考察 每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进 行处理。 –箱子:按照属性值划分的子区间,如果一个属性值处于某个子 区间范围内,就称把该属性值放进这个子区间代表的“箱子”里。 –分箱技术需要确定的主要问题: • 分箱方法,即如何分箱 • 数据平滑方法,即如何对每个箱子中的数据进行平滑处理。

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档