- 1、本文档共72页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
04数据仓库与OLAP技术概述剖析
数据立方体的有效计算 (1) 核心:有效计算多个维集合上的聚集 (compute cube) 类似于实现SQL中的GROUP BY操作 E.g. 一个数据立方体sales_cube,包含city,item,year和sales_in_dollars,可以在不同的层次上查询汇总这些数据 (item, city, year) –3D (item, city), (item year), (city, year) —2D (item), (city), (year) —1D () --0D (item) (city) () (year) (city, item) (city, year) (item, year) (city, item, year) 数据立方体的有效计算 (2) 数据立方体可以被看成是一个方体的格 最底层的方体是基本方体 最顶端的方体(顶点)只包含一个单元的值 一个n维的数据立方体,每维L层,可能产生的方体总数是多少? 维灾难 E.g. 假设数据立方体有10个维,每维5层,则可能产生的方体总数为510 ≈ 9.8×106个 数据立方体的物化 数据立方体的物化可以有以下三种选择: 全物化 预先计算所有方体 不物化 不预先计算任何“非基本”方体 部分物化 有选择的计算一个所有方体的适当子集 考虑因素:(1)确定要物化的方体;(2)在查询时利用物化的方体;(3)在装载和刷新时,有效的更新物化的方体 确定物化哪些方体 考虑工作负荷下的查询、它们的频率和它们的开销等等 第四章 数据仓库与OLAP技术概述 什么是数据仓库 多维数据模型 数据仓库的体系结构 数据仓库实现 从数据仓库到数据挖掘 数据仓库的应用 数据仓库的三种应用 信息处理 支持查询和基本的统计分析,并使用交叉表、表、图标和图进行报表处理 分析处理 对数据仓库中的数据进行多维数据分析 支持基本的OLAP操作,切块、切片、上卷、下钻、转轴等 数据挖掘 从隐藏模式中发现知识 支持关联分析,构建分析性模型,分类和预测,并用可视化工具呈现挖掘的结果 三种应用间的差别 从联机分析处理到联机分析挖掘 为什么要联机分析挖掘 数据仓库中有高质量的数据 数据仓库中存放着整合的、一致的、清理过的数据 围绕数据仓库的信息处理结构 存取、集成、合并多个异种数据库的转换,ODBC/OLEDB连接,Web访问和访问工具等 基于OLAP的探测式数据分析 使用上卷、下钻、切片、转轴等技术进行数据挖掘 数据挖掘功能的联机选择 多种数据挖掘功能、算法和任务的整合 联机分析挖掘的体系结构 数据仓库 元数据 多维数据库 OLAM 引擎 OLAP 引擎 用户图形界面 API 数据方体 API 数据库 API 数据清理 数据集成 第三层 OLAP/OLAM 第二层 多维数据库 第一层 数据存储 第四层 用户界面 数据的过滤、集成 过滤 数据库 基于约束的数据挖掘 挖掘结果 * 小结 数据仓库是面向主题的、集成的、时变的和非易失的有组织的数据集合,支持管理决策制定。有一些要素区别数据仓库与操作数据库。由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。 数据仓库通常采用三层体系结构。底层是数据仓库服务器,它通常是关系数据库系统。中间层是 OLAP服务器。顶层是客户,包括查询和报表工具。 数据仓库包含加载和刷新仓库的后端工具和实用程序。这些涵盖了数据提取、数据清理、数据变换、装入、刷新和仓库管理。 数据仓库元数据是定义仓库对象的数据。元数据库提供了关于仓库结构,数据历史,汇总使用的算法,从源数据到仓库形式的映射,系统性能,商务术语和问题等细节。 通常,多维数据模型用于企业数据仓库和部门数据集市的设计。这种模型采用星形模式、雪花模式或事实星座模式。多维数据模型的核心是数据立方体。数据立方体由大量事实(或度量)和许多维组成。维是一个组织想要记录的实体或透视,本质上是分层的。 * 小结 联机分析处理(OLAP)可以在使用多维数据模型的数据仓库或数据集市上进行。典型的OLAP操作包括上卷、下钻(钻过、钻透)、切片和切块、转轴(旋转),以及统计操作,如秩评定、计算移动平均值和增长率等。使用数据立方体结构,OLAP操作可以有效地实现。 数据仓库用于信息处理(查询和报表)、分析处理(允许用户通过OLAP操作在汇总数据和细节数据之间导航)和数据挖掘(支持知识发现)。基于OLAP的数据挖掘称为多维数据挖掘(又称探索式多维数据挖掘、联机分析挖掘或OLAM)。它强调OLAP挖掘的交互式和探测式特点。 OLAP服务器可以是关系OLAP (ROLAP)、多维OLAP (MOLAP)或混合OLAP (HOLAP)o ROLAP服务器使用扩充的关系DBMS,把多维数据上的OLAP操作映射成标
您可能关注的文档
最近下载
- 《海尔平台化建设》ppt教案模板.ppt
- 九年级数学试卷讲评课.pptx
- 安徽凤阳经济开发区环境影响区域评估报告(环境影响区域评估+环境标准).pdf
- 危险货物道路输运押运人员从业资格考试模拟题及答案.doc VIP
- 八年级信息技术(下)Python期末考试试题及答案.docx VIP
- 小学英语五年级The little horse crosses the river课件.pptx
- 农行反洗钱与制裁合规知识竞赛考试题库大全-下(判断题).pdf VIP
- 甄嬛传英文剧本.docx
- 2022河南省家政服务业职业技能大赛母婴护理项目技术工作文件.pdf
- 2022八年级下学期信息技术期末考试(python).docx VIP
文档评论(0)