第二章数据仓库与数据挖掘的OLAP技术.pptVIP

第二章数据仓库与数据挖掘的OLAP技术.ppt

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘:概念与技术 第2章:数据仓库和数据挖掘的OLAP技术 什么是数据仓库? 多维数据模型 数据仓库的系统结构 从数据仓库到数据挖掘 什么是数据仓库?(1) 用不同的方法定义, 但不是严格的. 是一个决策支持数据库, 它与组织的操作数据库分离地维护 数据仓库系统允许将各种应用系统集成在一起, 通过为统一的历史数据分析提供坚实的平台, 支持信息处理 什么是数据仓库?(2) W. H. Inmon的定义: 数据仓库是 面向主题的(subject-oriented), 集成的(integrated), 时变的(time-variant), 和非易失的( nonvolatile) 数据集合, 支持管理决策过程。 数据仓库—面向主题的 围绕重要的主题( 如顾客、产品、销售等) 组织. 关注决策制定者的数据建模与分析, 而不是日常的操作和事务处理. 数据仓库排除对于决策过程无用的数据, 提供特定主题的简明视图. 数据仓库— 集成的 通过将多个异种的数据源集成在一起 而构造 关系数据库, 一般文件, 联机事务记录 使用数据清理和数据集成技术. 确保命名约定, 编码结构, 属性度量等的一致性。例如, 饭店价格: 货币种类, 税, 是否含早餐等。 当数据装入数据仓库时, 数据将被转换。 数据仓库— 时变的 数据仓库的时间跨度显著地比操作数据库长. 操作数据库数据: 当前值数据. 数据仓库数据: 从历史的角度提供数据 (例如, 过去 5-10 年) 数据仓库中的每个键结构 显式或隐式地包含时间元素, 但是, 操作数据的键可能包含, 也可能不包含“时间元素”. 数据仓库— 非易失的 从操作环境转换过来的数据物理地分离存放. 数据的更新不在数据仓库环境中出现. 不需要事务处理, 恢复, 和并发控制机制 只需要两种数据存取操作: 数据的初始化装入 和 数据访问. OLTP vs. OLAP 为什么建立分离的数据仓库? 为了两个系统的高性能 DBMS— 目的是 OLTP: 存取方法, 索引, 并发控制, 恢复 数据仓库—目的是 OLAP: 复杂的 OLAP 查询, 多维视图, 统一. 不同的功能和不同的数据: 缺少数据: 决策支持需要历史数据, 通常操作数据库并不维护这些数据 数据统一: 决策支持需要将来自异种数据源的数据统一 (聚集, 汇总) 数据质量: 不同的数据源通常使用不同的数据表示, 编码, 和应当遵循的格式 第2章: 数据挖掘的数据仓库与OLAP技术 什么是数据仓库? 多维数据模型 数据仓库的系统结构 从数据仓库到数据挖掘 数据立方体(数据方) 多维数据模型围绕中心主题(例如,sales)组织,该主题用事实表表示 事实是数值度量的。事实表包括事实的名称或度量,以及每个相关维表的关键字 维自然是分层的 number street city ? province ? country 数据方 二维数据方是一个二维表 三维数据方是二维表的序列 类似地,n维数据方是n-1维数据方的序列 三维数据方有一种很好的图示 四维数据方可以用三维数据方序列图示 三维数据方图示 例:3-D数据方维是time,item和location,所显示的度量为dollars_sold 四维数据方图示 四维数据方是三维数据方的序列 立方体: 方体的格(数据立方体) 数据仓库的概念建模 数据仓库建模: 维和度量 星型模式: 事实表在中央, 连接一组维表 雪花模式 : 星型模式的精炼, 其中一些维分层结构被规范化成一组较小的维表, 形成类似于雪花的形状 事实 星座: 多个事实表共享维表, 可以看作星型的集合, 因此称作星系模式(事实星座) 星型模式的例子 雪花模式的例子 事实星座的例子 数据挖掘查询语言 DMQL: 语言原语 方定义 (事实表) define cube cube_name [dimension_list]: measure_list 维定义 ( 维表) define dimension dimension_name as (attribute_or_subdimension_list) 特殊情况 (共享维表) 用DMQL定义星型模式 define cube sales_star [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimensi

文档评论(0)

0520 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档