CHAPTER3-数据仓库与OLAP技术.ppt

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘:概念与技术 第3章 数据挖掘的数据仓库与OLAP技术 第3章: 数据挖掘的数据仓库与OLAP技术 什么是数据仓库? 多维数据模型 数据仓库结构 数据仓库实现 数据立方体的进一步发展 从数据仓库到数据挖掘 什么是数据仓库? 有不同的方法定义, 但不是严格的. 是一个决策支持数据库, 它与组织机构的操作数据库分别维护 数据仓库系统允许将各种应用系统集成在一起, 为统一的历史数据分析提供坚实的平台, 支持信息处理. W. H. Inmon的定义: 数据仓库是 面向主题的(subject-oriented), 集成的(integrated), 时变的(time-variant), 和非易失的( nonvolatile) 数据集合, 支持管理决策过程 建立数据仓库(Data warehousing): 构造和使用数据仓库的过程 数据仓库—面向主题的 围绕重要的主题( 如顾客、产品、销售等) 组织. 关注决策制定者的数据建模与分析, 而不是日常的操作和事务处理. 数据仓库排除对于决策过程无用的数据, 提供特定主题的简明视图. 数据仓库— 集成的 通过将多个异种的数据源集成在一起, 而构造 比如,关系数据库, 一般文件, 联机事务记录 使用数据清理和数据集成技术. 确保命名约定, 编码结构, 属性度量等的一致性 例如, 饭店价格: 货币种类, 税, 是否含早餐, 等. 当数据装入数据仓库时, 数据将被转换. 数据仓库— 时变的 数据仓库的时间跨度显著地比操作数据库长. 操作数据库数据: 当前值数据. 数据仓库数据: 从历史的角度提供数据 (例如, 过去 5-10 年) 数据仓库中的每个键结构 显式或隐式地包含时间元素, 但是, 操作数据的键可能包含, 也可能不包含“时间元素”. 数据仓库— 非易失的 从操作环境转换过来的数据物理地分离存放. 数据的更新不在数据仓库环境中出现. 不需要事务处理, 恢复, 和并发控制机制 只需要两种数据存取操作: 数据的初始化装入 和 数据访问. 数据仓库和异种DBMS 传统的异种数据库集成: 在异种数据库上建立一个包装程序(wrappers)或中介程序(/mediators) 查询驱动的方法 当查询提交给一个站点时, 使用元数据词典将查询转换成所涉及的异构站点上的相应查询, 查询的结果被集成为一个全局回答的集合 需要:复杂的信息过滤, 对资源的竞争 数据仓库: 更新驱动的, 高性能 来自异种信息源的数据被预先集成并存储在数据仓库中, 直接用于查询和分析 数据仓库VS.操作数据库 OLTP (on-line transaction processing, 联机事务处理) 传统关系 DBMS的主要任务 涵盖日常操作: 购买, 库存, 银行, 制造, 工资单, 注册, 记帐, 等. OLAP (on-line analytical processing, 联机分析处理) 数据仓库系统的主要任务 数据分析和决策制定上提供服务 不同的特点 (OLTP vs. OLAP): 用户和系统的面向性: 顾客 vs. 市场 数据内容: 当前的, 细节的 vs. 历史的, 合并的 数据库设计: ER + 应用 vs. 星型 + 主题 视图: 当前的, 局部的 vs. 进化的, 集成的 访问模式: 更新 vs. 只读的, 但是复杂的查询 OLTP vs. OLAP 为什么建立分离的数据仓库? 为了两个系统的高性能 DBMS— 目的是 OLTP: 存取方法, 索引, 并发控制, 恢复 数据仓库—目的是 OLAP: 复杂的 OLAP 查询, 多维视图, 统一. 不同的功能和不同的数据: 缺少数据: 决策支持需要历史数据, 通常操作数据库并不维护这些数据 数据统一: 决策支持需要将来自异种数据源的数据统一 (聚集, 汇总) 数据质量: 不同的数据源通常使用不同的数据表示, 编码, 和应当遵循的格式 第2章: 数据挖掘的数据仓库与OLAP技术 什么是数据仓库? 多维数据模型 数据仓库结构 数据仓库实现 从数据仓库到数据挖掘 数据立方体的进一步发展 由表和电子数据表到数据方 数据仓库基于 多维数据模型 , 多维数据模型将数据视为数据方(data cube)形式 数据方( 如sales) 可以将数据建模, 并允许由多个维进行观察 维表, 如 item (item_name, brand, type), 或 time(day, week, month, quarter, year) 事实表包含度量 (如 dollars_sold) 和每个相关维表的键 在数据仓库的文献中, 一个 n-D 基本立方体 称作基本方体(base cuboid). 最顶部的 0-D方体存放最高层的汇总, 称作顶点方体( apex

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档