- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 5 章
数据仓库的管理与应用;内容提要;5.1 数据仓库管理;为什么需要对数据仓库进行管理?;5.1.1 用户使用数据仓库的管理;1.信息使用者使用数据仓库的性能优化;2.探索者使用数据仓库的性能优化;5.1.2 数据管理;5.1.2.1 休眠数据;一些事实:;设数据仓库的数据量为D,数据处理次数为n,平均每次处理数据的字节数为d,则一年中数据处理的总数据量为:n?d。
在各次数据处理过程中,可能会出现数据的重复使用,我们用系数a表示为:
; 2.休眠数据的产生与查找;(2)查找休眠数据
查找休眠数据的最好方法是监视用户查询
数据仓库的活动。
① 监视用户查询的SQL语句。
② 监视返回给用户的查询结果数据集。数
据仓库管理员能知道哪些数据没有被使用,
它们很可能就是休眠数据。 ;3.删除休眠数据
(1)直接删除休眠数据
①删除用户不访问的数据。
②通过数据访问模型来删除休眠数据。
(2)对休眠数据归档存储
(3)邻线(Near Line)存储
“邻线” 存储是一种二级数据存储方式。
“邻线”介于“在线(On Line)”和“离线(Off Line)”之间,将休眠数据从数据仓库的在线存储中转移到邻线存储中,平时不参与数据仓库的运行。
;5.1.2.2脏数据的产生和清理;2.清理脏数据;5.1.2.3 监视数据;5.1.2.4元数据管理;1.评估元数据的价值
(1) 在应用程序中:描述应用程序的操作数据的机制和控制运行机制的元数据,使系统开发人员就能够理解应用程序内部结构和数据之间相互关系。
(2) 在数据仓库环境中元数据通过三种方式发挥作用。
描述源数据和目标的数据模型
在填充数据时描述转换集成的数据流
允许终端用户使用有意义的导航数据
(3) 获取数据和使用数据的元数据是元数据价值最大的用途。;2.管理元数据
(1)支持企业范围内的体系结构理解各种元数据目录,以及它们在企业范围内的体系结构的作用。
(2)基于知识库的方法
元数据一般存储在属性知识库中。转移到一个共享的、公共的元数据知识库中。
(3)配置管理
元数据知识库必须提供标准的管理能力,如注册、退出、版本控制等。
(4)支持开放的元数据交换标准
???业元数据应该支持MDIS(元数据交换标准)。
(5)动态交换和同步
企业应该采用MDIS标准,实现动态交换或同步,否则需要一个开放的元数据交换工具。 ;5.2数据仓的决策支持与决策支持系统;数据仓库是一种能够提供重要战略信息,并获得竞争优势的新技术,从而得到迅速的发展。
具体的战略信息有:
给出销售量最好的产品名单
找出出现问题的地区
追踪查找出现问题原因(向下钻取)
对比其他的数据(横向钻取)
显示最大的利润
当一个地区的销售低于目标值时,提出警告信息。;数据提供的决策支持的作用;5.2.1 查询与报表;2.报表;5.2.2 多维分析与原因分析;2、原因分析
查找问题出现的原因是一项很重要的决策支持任务,一般通过多维数据分析的钻取操作来完成。
某公司从分析报表中得知最近几个月来整个企业的利润在急速下滑,通过人机交互找出该企业利润下滑的原因。 ;举例:;5.2.3 预测未来;5.2.4 实时决策;以货运为例;5.2.5自动决策;5.2.6决策支持系统;5.3数据仓库应用实例 ;5.3.1航空公司数据仓库决策支持系统简例;1.航空公司数据仓库系统的功能; 2.数据仓库系统的决策支持 ; 通过查询“北京到各地区的航空市场情况”,发现西南地区总周转量出现了最大负增长量。该决策支持系统简例就是完成对此问题进行多维分析和原因分析,找出出现原因。
决策支持系统运行结构图如下:; 数据仓库服务器 ;图1 全国各地区航空周转量与去年对比状况;图2 全国各地区航空客运周转量及与去年同期比较;图3 北京到国内各地区货运周转量及与去年同期比较;表1 客运、货运、总周转量及其去年同期比较;;; 表2 昆明航线各机型总周转量以及与去年同期比较的数据
从表2中可以看出,不同机型的周转量以及对比去年同期增长的具体数据。
; 以上决策支持系统过程完成了对航空公司全国各地区总周转量对比去年同期出现负增长量最大的西南地区,经过多维分析和原因分析,找出其原因发生在昆明航线上。
主要是200-300座级机型的总周转量负增长以及150座级机型负增长量造成的。
其中,200-300座级负增长最严重。
这为决策者提供了解决西南地区负增长问题辅助决策的信息。;数据仓库决策支持系统应用说明;;5.3.2 统计业数据仓库系统;1. 统计业数据仓库解决方案;(2)查询方式和分析手段的更新
统计报表和统计分析需要从大量各种各样的原始材料中汇总整理各种不同需求,反映不同
文档评论(0)