- 4
- 0
- 约2.32万字
- 约 20页
- 2017-12-29 发布于浙江
- 举报
下载
第5章 数据仓库和技术
在许多方面,数据仓库比数据库需要一系列更简单的技术。数据仓库中没有联机的数据
更新;只有非常少的一些锁定需要;而且对于远程处理接口的需要也只是最基本的;等等。
然而,数据仓库有许多技术上的需求。这一章就讲述一下这方面的要求。
5.1 管理大量数据
对于数据仓库,第一个也是最重要的技术需求就是能够管理大量的数据,如图 5 - 1所示。
第1个技术需求 —
管理大量数据的能力
第2个技术需求 —
能够管理多种介质
索引
第3个技术需求 —
能够轻松容易地索引和监视数据
报告
第4个技术需求 —
对于接口—用各种不同的
技术接受和传送数据
图5-1 对支持数据仓库的技术的一些基本需求
第5章 数据仓库和技术 97
下载
有好多种管理大量数据的方法—通过寻址,通过索引,通过数据的外延,通过有效的溢
出管理,等等。管理大量的数据有两方面—能够管理大量数据的能力和能够管理好的能力。
任何声称支持数据仓库的技术一定都要满足能力与效率的要求。
数据仓库开发者建造数据仓库时,在理想的情况下是假定其能够满足处理大量数据的需
求的。在开发和实现数据仓库的时候,如果开发者不得不对技术进行扩展以适应数据仓库,
那么所用的基本技术就存在一定的问题。
当谈到数据仓库时,问题不仅是基本的技术及其效率,还有存储和处理的费用也是要考
虑的因素。
5.2 管理多介质
在处理大量数据时,为了满足高效率和合理的费用,应用在数据仓库中的基本技术应该
能够解决多种存储介质的问题。仅仅在 D A S D上管理一个成熟的数据仓库是不够的。考虑到访
问速度和存储费用,对数据的存储要分层次。层次的区分如下:
主存 —非常快 —非常贵
扩展内存 —非常快 —贵
高速缓存 —非常快 —贵
D A S D —快 —适中
光盘 —不慢 —不贵
缩微胶片 —慢 —便宜
由于数据仓库中的大量数量和被访问到的可能性这两方面因素存在,一个满载的数据仓
库应该放在多种存储层次上。处理数据仓库技术应该能管理多种存储介质上的数据。
5.3 索引/监视数据
数据仓库的灵魂就在于灵活性和对数据的不可预测的访问。这一点也就是要求能够对数
据进行快速和方便的访问。数据仓库中的数据如果不能方便和有效地检索,那么建立数据仓
库这项工作就不是成功的。当然,设计者可以利用许多方法来使数据尽可能地灵活,例如利
用双重粒度级和数据分割。但这些技术一定要支持方便的索引,一些索引技术常常是有用的,
如二级索引、稀疏索引、动态索引、临时索引等等。而且,建立和应用索引的费用不能太高。
相同地,数据仓库中的数据也应能随意地被监视。监视数据的费用也不能太高,过程不
能太复杂,监视程序在需要时应能随时运行。
有很多理由要监视数据仓库中的数据,包括:
■ 决定是否应数据重组。
■ 决定索引是否建立得不恰当。
■ 决定是否有太多数据溢出。
■ 决定数据的统计成份。
■ 决定剩余的可用空间。
如果数据仓库技术不支持对数据的方便和高效地监视的话,那么它就不适用。
5.4 多种技术的接口
数据仓库另一个非常重要的问题是要能够用各种不同的技术获得和传送数据。如果在向
98 数 据 仓
原创力文档

文档评论(0)