- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
6.3 数据仓库的实施
主要包括五个部分的内容:
数据仓库的设计建模
对数据仓库的数据组织进行逻辑结构的设计
数据转换与集成
将数据进行提取、转换、装载到数据仓库(或集市)中
数据存储与管理
保证数据的安全性、完整性、一致性
数据的分析和展现
利用OLAP对数据进行多维分析、汇总,形成图表或报表
数据仓库的维护和管理
对数据仓库中元数据的管理
数据仓库系统体系结构
6.4 数据仓库的建模模型
数据仓库数据模型采用多维数据模型。可以以星型模型、雪花模型等形式存在。
几个相关概念:
事实表(Fact):存储用户需要查询分析的数据,事实表中一般包含多个维(Dimension)和度量(Measurement)。
维:数据立方中的空间坐标轴,例如时间维、地区维、产品维。
粒度:每个维可以分成若干等级,例如时间维可以分成年、月、日,描述了不同的查询层次。
度量:是数据的实际意义,描述数据“是什么”,即一个数值的测量指标,如:人数、单价、销售量等。
星型模型
星型模型:
度量的实际数据存放在事实表中。维的详细信息,如不同的层次划分和相应数据等在维表中存储,事实表中存放各个维的标识码键。事实表和维表将通过这些键关联起来,构成一种星型模型。
这种模式图像星星爆发,维表围绕中心事实表显示在射线上。在星型模式中,每维只用一个表表示,每个表包含一组属性。
雪花模型
雪花模型:
对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为雪花模型。
雪花模型是星型模型的变种,其中某些维表是规范的,把数据进一步分解到附加的表中。这种模型图形成类似于雪花的形状。
6.5 联机分析处理(OLAP)
联机分析处理,On-Line Analysis Processing,支持通过多维的方式对数据进行分析、查询和生成报表,其基本功能是对用户当前及历史数据进行分析以辅助领导决策。
相关概念:
维:数据立方中的空间坐标轴,例如时间维、地区维、产品维。
粒度:每个维可以分成若干等级,例如时间维可以分成年、月、日,描述了不同的查询层次。
OLAP特性
(1)多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。
(2)快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。
(3)可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
(4)共享性:满足大量用户间数据的共享
(5)信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。
OLTP vs OLAP
OLAP的分析思路
OLAP是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)、和如果我采取这样的措施又会怎么样(What if)。
用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。
比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。
OLAP中的操作
应用OLAP工具进行的分析操作主要有:钻取、旋转、切片
钻取:沿着维上粒度的粗细方向进行的分析操作,改变维的层次,变换分析的粒度。它包括向上钻取和向下钻取。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据;而drill down则相反,它从汇总数据深入到细节数据进行观察
旋转:参与分析的维的变化,即在表格中重新安排维的放置(例如行列互换 )
切片:将某维固定观察其他维的变化,即一部分维上选定值后,关心度量数据在剩余维上的分布。
OLAP的分析方法(一)钻取
按时间维向下钻取
按时间维向上钻取
OLAP的分析方法(二)旋转
OLAP的分析方法(三)切片、切块
6.6 数据仓库中的数据集成
数据集成的目的:
访问多种数据源的数据
转换成统一格式
校验数据的完整性
存储数据到数据仓库中
数据集成的四个阶段(ETL)
数据抽取(Data Extraction)
使用规定的标准选择数据,并把数据传送到数据仓库中
数据转换(Data Transformation)
建立不同数据源的源字段到数据仓库字段的映射
数据清理(Data Cleaning)
把事实表中的属性字段对应的值逐个在维表中查询,审查字段值是否合理,并加以记录
数据装载(Data Lo
您可能关注的文档
- 第六章 长持期投资管理.ppt
- 第六章 铭货币管理法.ppt
- 第六章 铪小企业财务报表.ppt
- 第六章 非营利组织切的财务管理.ppt
- 第六章 阳概要设计说明书的编写.ppt
- 第六章 非载关税措施.ppt
- 第六章 音权益融资.ppt
- 第六章 项目总成本费栗用估算.ppt
- 第六章 预量测分析.ppt
- 第六章 风险无与报酬.ppt
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)