网站大量收购闲置独家精品文档,联系QQ:2885784924

13__数据仓库学习课件.pptxVIP

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据仓库,联机分析处理,数据挖掘

DataWarehousing,OLAP,andDataMining;第13章数据仓库;数据仓库的特征;面向主题--数据按照主题进行组织;在数据仓库中,主要主题领域是以一组相关的表来具体实现的。;一个顾客的所有表通过一个公共键码联系起来。公共键码顾客标识号(customerID)将在顾客主题领域中所找到的所有数据联系起来;集成--多个数据源的数据集合成为一个整体;稳定——数据仓库中的数据通常是历史数据;时变——所有数据都有特定的时间标识;数据仓库与数据库的区别;数据仓库的结构;数据仓库的引出

1.传统数据库以及OLTP(On-LineTransactionProcessing联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。

2.因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。

3.为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(DataWarehose)。;数据仓库的定义与基本特性;2.数据仓库的重要特性

a)subject-oriented(面向主题性);数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。;也就是说,首先要从源数据库中挑选出数据仓库所需要的数据,然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求统一起来,消除源数据中字段的同名异义、异名同义现象,这些工作称为数据的清理(clean),把数据仓库的数据呈现给用户一个一致统一的视图。;数据仓库的时变性,就是数据应该随着时间的推移而变化。;因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中必须不断的生成主题的新快照,以满足决策分析的需要。数据新快照生成的间隔,可以根据快照的生成速度和决策分析的需要而定。;d)non-volatile数据的非易失性;e)insupportofmanagementdecisions支持决策系统;尽管OLTP系统和数据仓库有着许多不同的特性且基本构建思想不同,但是他们却是紧密联系的,因为OLTP系统是数据仓库的数据来源。

OLTP系统并不是为了快速回答查询,也不是为了存储分析趋势的历史数据而创建的。一般的,OLTP提供了大量的原始数据,这些数据不易被分析。

数据仓库需要回答更复杂的查询,而不仅仅使一些像“英国主要城市的商品平均销售价格是多少”之类的简单聚集数据查询。

数据仓库需要回答的查询类型可以是简单的查询,也可以是高度复杂的,且还与终端用户使用的查询工具相关。;DreamHome数据仓库的示例支持以下查询:;数据仓库的一个案例;沃尔玛早年利用NCR数据仓库技术,对商品进行市场类组分析,即分析哪些商品顾客最有希望一起购买。沃尔玛利用NCR自动数据挖掘工具(模式识别软件)对一年多详细的原始交易数据进行分析和挖掘。一个意外的发现就是:跟尿布一起购买最多的商品竟是啤酒!沃尔玛就在它的一个个商店里将它们并排摆放在一起,结果是尿布与啤酒的销售量双双增长。;数据仓库的体系结构;为了提高性能,数据仓库中通常采用下列措施:

(1)采用并行系统结构。

(2)对数据仓库中用得多、开销大的处理,例如聚集函数计算,采用新的查询优化策略和索引结构。

(3)针对数据仓库以读为主的特点,把查询中常用的中间结果定义为视图,且将事先计算好的视图存于数据仓库中。在需要的时候只要读出即可,无需临时计算。

为了决策者方便地在数据仓库上决策数据仓库还应该提供相应的用户接口和各种工具软件。;从图13-1可以看出,数据仓库要求多项技术的支持,大致可分为五个方面:

(1)异构多数据源集成技术。

(2)RDBMS对数据仓库的支撑技术,包括OLAP和并行处理等技术。

(3)硬件系统,包括并行处理结构、大容量磁盘阵列系统等。

(4)数据模式设计,包括对决策主题的需求分析、基表和实现图的模式设计、各种索引的合理配置等。

(5)决策用的工具和接口软件。;操作型数据

加载管理器:执行所有与提取和装载数据到数据仓库的有关操作。

仓库管理器:执行管理一个数据仓库数据所有的必要程序,它可以由一些外购的数据管理工具和针对特殊需要编写的程序组成。包括以下工作:

1.数据分析以确保一致性

2.将临时存储介质中的数据转换和合并后加载到数据仓库表中

3.为基础表创建索引和视图

文档评论(0)

xiaochuichui + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档