第二章:数据预处理与数据仓库 《数据挖掘与相关知识发现》 .ppt

第二章:数据预处理与数据仓库 《数据挖掘与相关知识发现》 .ppt

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章:数据预处理与数据仓库 《数据挖掘与相关知识发现》 .ppt

2003-11-1 高等教育出版社 元数据(Meta Data)及其存储 元数据指在数据仓库建设过程中产生的有关数据源定义、目标定义、转换规则等关键数据,是定义数据仓库对象的数据。 要使元数据在数据仓库开发阶段得到有效的应用,必须进行适当的组织和存储。元数据组织与存储的方法有以下两种: 使用商业或数据仓库信息目录 使用元数据库和数据字典 * * 第二章:数据预处理与数据仓库 2.1 数据清理 2.2 数据集成与转换 2.3 数据归约与浓缩 2.4 概念分层 2.5 数据仓库与多维数据模型 2.6 数据仓库与数据挖掘 本章小结 数据预处理与数据仓库 数据预处理技术为进一步的数据分析做准备,并能确定挖掘的类型,可以提高数据挖掘的质量。 数据清理可以纠正不一致数据,去掉数据中的噪声; 数据集成能将多个数据源合并成一致的数据存储模式,如数据立方体; 数据转换可以把数据变换成适于数据挖掘的形式; 数据归约通过聚集、删除冗余特性或聚类等方法来压缩数据。 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合,可以用于不同粒度的多维数据分析,为数据挖掘提供平台。 第二章:数据预处理与数据仓库 2.1 数据清理 2.2 数据集成与转换 2.3 数据归约与浓缩 2.4 概念分层 2.5 数据仓库与多维数据模型 2.6 数据仓库与数据挖掘 本章小结 数据清理 存在不完整的、含噪声的和不一致的数据是现实世界中大型数据库、数据仓库的共同特点。 数据清理(Data Cleaning)能够填补空缺数据,平滑噪声,识别、去除孤立点,纠正不一致的数据,进而改善数据质量,提高数据挖掘的精度和性能。 填补空缺值 海量数据集中可能“遗漏”了某些数据,要对这些不完整的数据进行分析,就必须通过推导来填充这些空缺值。 忽略元组 人工填写空缺值 用全局常量填充空缺值 用属性的平均值填充空缺值 用同类样本的平均值填补空缺值 用最可能的值填充空缺值 用最近邻方法填补空缺值 第二章:数据预处理与数据仓库 2.1 数据清理 2.2 数据集成与转换 2.3 数据归约与浓缩 2.4 概念分层 2.5 数据仓库与多维数据模型 2.6 数据仓库与数据挖掘 本章小结 数据集成与转换 海量数据集往往涉及多个数据源,因此,在数据挖掘之前需要合并这些数据源存储的数据。 如果原始数据的形式不适合数据挖掘算法需要,就要进行数据变换。 数据集成 数据挖掘对象可能来自多个数据源,包括不同形式的数据库、数据立方体或一般文本文件等。数据集成是将这些数据源中的数据集中存放在一个统一的数据存储(如数据仓库)中。 数据集成 通用标识符问题是在建立数据仓库时遇到的最困难的集成问题之一。 冗余是数据集成的另一个重要问题。 除了检测属性间的冗余外,“重复”也应当在元组级进行检测。重复是指对同一数据存在两个或多个相同的元组。 将多个数据源中的数据集成起来,能够减少或避免数据的冗余和不一致性,这将有助于提高数据挖掘的精度和效率。 数据转换 数据转换的目的是使数据和将来要建立的模型拟合得更好,形成适合挖掘的形式。数据转换主要涉及如下内容: 平滑:去掉数据中的噪声。 聚集:对数据进行汇总和聚集。 数据概化:使用概念分层,用高层次概念替换低层次“原始”数据。 规范化:通过将属性数据按比例缩放,使之落入一个小的特定区间(如0.0~1.0)来规范属性。 属性构造:构造新属性并将其添加到属性集中有助于数据挖掘过程。 第二章:数据预处理与数据仓库 2.1 数据清理 2.2 数据集成与转换 2.3 数据归约与浓缩 2.4 概念分层 2.5 数据仓库与多维数据模型 2.6 数据仓库与数据挖掘 本章小结 数据归约与浓缩 数据归约技术可以用来得到数据集的归约表示,在归约后的数据集上进行挖掘效率更高,并能产生相同(或几乎相同)的分析结果。 常用的数据归约策略有:数据立方体聚集、维归约、数据压缩、数值压缩、离散化和概念分层产生。 数据立方体聚集 左侧数据是某商场2000~2002年每季度的销售数据,对这种数据再聚集,使结果数据汇总每年的总销售额,而不是每季度的总销售额。聚集后数据量明显减少,但没有丢失分析任务所需的信息。 数据立方体存放多维聚集信息 数据立方体可以存放多维聚集信息。 下图所示数据立方体用于某商店每类商品在各部门年销售多维数据分析。每个单元存放一个聚集值,对应于多维空间的一个数据点。每个属性可能存在概念分层,允许在多个抽象层进行数据分析。 维归约 用于数据分析的数据可能包含很多属性,其中一些属性与数据挖掘任务并不相关。 维归约通过删除与数据挖掘不相关的属性(或维),

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档