数据挖掘-CHAPTER3-数据仓库与OLAP技术要点解析.ppt

数据挖掘-CHAPTER3-数据仓库与OLAP技术要点解析.ppt

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* OLAP 操作: 上卷 上卷(Roll up)/上钻 (drill-up): 汇总数据 通过沿概念分层攀升或通过维归约 在 location上卷(由 cities 到 countries) * OLAP 操作: 下钻 下钻(Drill down)/下卷 (roll down): 上卷的逆操作 由较高层的汇总到较低层的汇总或详细数据, 或者引进新的维 在 time下钻 (由 quarters 到 months) * OLAP 操作:切片 切片(Slice) : 投影和选择,对一个维进行选择,导致子方体 切片条件: time=“Q2” * OLAP 操作: 切块 切块 : 对两个或多个维执行选择,导致子方体 切块条件: (location=“Montreal” or “Vancouver”) and (time=“Q1” or “Q2”) and (item=“home entertainment” or “computer”) * OLAP 操作: 转轴 转轴(Pivot)/旋转 (rotate): 调整数据方, 可视化操作,提供数据的替代表示. * 其他操作 其它操作 钻过(drill across): 涉及多个事实表 钻透(drill through): 通过数据方的最底层, 到它背后的关系表 (使用 SQL) 统计计算 比率、方差;增长率 分析建模,等 * 第3章: 数据挖掘的数据仓库与OLAP技术 什么是数据仓库? 多维数据模型 数据仓库结构 数据仓库实现 从数据仓库到数据挖掘 数据立方体的进一步发展 * 数据仓库设计 数据仓库设计中,必须考虑四种视图 自顶向下视图 选择数据仓库所需的有关信息 数据源视图 揭示(操作)数据库系统捕获、存储、和管理的信息 数据仓库视图 由事实表和维表组成 商务查询视图 从最终用户的角度透视数据仓库中的数据 * 数据仓库设计过程 自顶向下, 自底向上方法或二者的结合 自顶向下: 由总体设计和规划开始 (成熟) 自底向上: 由实验和原型开始 (快速) 软件工程的观点 瀑布式: 在进行下一步之前, 每一步都进行结构化和系统的分析 螺旋式 :功能渐增的系统的快速产生, 相继版本之间的间隔很短 , 快速转向 典型的数据仓库设计过程 选取待建模的商务处理, 例如, 订单, 发票, 库存等. 选取商务处理的粒度 (原子层数据), 例如,单个事务、一天的快照等 选取用于每个事实表记录的维, 如,时间、商品、顾客、供应商、仓库、事务类型和状态 等 选取将安放在事实表中的度量. 典型的度量是可加的数值量, 如dollars_sold和units_sold * 多层结构 数据仓库 提取 变换 装入 刷新 OLAP引擎 分析 查询 报告 数据挖掘 Monitor & Integrator 元数据 数据源 终端工具 输出 数据集市 操作数据库 其它 数据源 数据存储 OLAP 服务器 * 三层数据仓库模型 企业仓库 搜集了关于主题的所有信息, 跨越整个组织 数据集市 数据集市包含企业范围数据的一个子集, 对于特定的用户是有用的. 其范围限于选定的主题, 如销售数据 独立的 vs. 依赖的 (直接来自数据仓库) 数据集市 虚拟仓库 操作数据库上视图的集合 只有部分可能的汇总视图被物化 * 数据仓库开发: 一种推荐的方法 定义一个高层企业数据模型 数据集市 分布式 数据集市 多层数据仓库 企业数据仓库 模型 提炼 数据集市 模 型 提 炼 * OLAP 服务器结构 关系OLAP (ROLAP) 使用关系或扩充关系的 DBMS 存放和管理仓库数据, 使用OLAP中间件支持其它部分 包含一个优化的 DBMS 后端, 聚集导航逻辑的实现, 以及附加的工具和服务 较大的可伸缩性 多维 OLAP (MOLAP) 基于数组的多维存储引擎 (稀疏矩阵技术) 对预计算的汇总数据快速索引 混合 OLAP (HOLAP) 弹性, 底层: 关系的, 高层: 数组. 专门的 SQL 服务器 对星型/雪花型模式上的SQL查询提供特殊的支持 * 元数据存储 元数据是定义数据仓库的数据. 有如下类型 描述数据仓库的结构 模式, 视图, 维, 分层结构, 数据源定义, 数据集市的位置和内容 操作元数据 数据血统 (数据变迁历史和转换路径), 数据流通 (主动, 存档, 或净化), 管理信息 (数据仓库使用统计, 错误报告, 审计跟踪) 用于汇总的算法 由操作环境到数据仓库的映射 涉及系统性能的数据 仓库模式, 视图和导出数据的定义 商务数据 商务术语和定义, 数据的所有者, 收费政策 * 数据仓库的后端工具和实用程序 数据提取: 由多个异种, 外部数据源收集数据 数据清理: 检测数据中的错误

文档评论(0)

挺进公司 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档