- 1
- 0
- 约7.78千字
- 约 7页
- 2021-05-30 发布于上海
- 举报
数 据 仓 库 概 念 的 简 单 理 解
一个典型的企业数据仓库系统通常包含数据源、 数据存储与管理、 OLAP服务
器以及前端工具与应用四个部分。如下图所示:
数据源:
是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和
外部信息。 内部信息包括存放于企业操作型数据库中 (通常存放在 RDBMS中)的
各种业务数据和办公自动化 (OA)系统包含的各类文档数据。 外部信息包括各类
法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;
数据的存储与管理:
是整个数据仓库系统的核心。 在现有各业务系统的基础上, 对数据进行抽取、
清理,并有效集成,按照主题进行重新组织, 最终确定数据仓库的物理存储结构,
同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、
数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数
据仓库存储可以分为企业级数据仓库和部门级数据仓库 (通常称为“数据集市”,
Data Mart )。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工
作。这些功能与目前的 DBMS基本一致。
OLAP服务器:
对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多
层次的分析,发现数据趋势。其具体实现可以分为: ROLAP、MOLAP和 HOLAP。ROLAP
基本数据和聚合数据均存放在 RDBMS之中;MOLAP基本数据和聚合数据均存放于
多维数据库中;而 HOLAP是 ROLAP与 MOLAP的综合,基本数据存放于 RDBMS之中,
聚合数据存放于多维数据库中。
前端工具与应用:
前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具
以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对
OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对 OLAP服务
器。 ?
集线器与车轮状结构的企业级数据仓库 ?
这种结构也称为“ Hub and Spoke ”,这是因为中央数据库汇集了来自各业
务处理系统的数据,同时也负责向各从属数据集市提供信息,看上去像一个 Hub
( 集线器 ) ;而业务人员在进行数据分析与信息访问时将根据需要连接到不同的数
据集市,这种交叉复杂的连接看上去就像 Spoke(车轮辐条 ) 一样。 “Hub and
Spoke”结构解决了企业内统一数据存储模型的问题,但从实际使用的角度来看
仍有比较严重的缺陷: 一是业务人员对信息的访问非常不方便, 很难进行跨数据
集市或跨部门的信息分析;另一个问题是每个数据集市都需要相应的软硬件投
入,当数据集市增加时, 系统整体投资迅速增加, 同时管理的复杂性也随之增加。
这些都意味着巨大的整体拥有成本 TCO(Total Cost of Ownership) 。
为什么不直接访问中央数据仓库而非要设计一个数据集市层呢?主要原因
在于当中央数据库保存越来越多的数据、 并发用户越来越多时, 一般的数据库引
擎无法承担这样的负载,只好把它们分解到不同的数据集市。对于“ Hub and
Spoke”结构的数据仓库, Gartner Group 也认为, “数据仓库的 Hub and Spoke
结构,回避了 DBMS技术中的弱点,无法提供适当的业务价值来平衡投资成本的
显着增加”,“之所以产生这种趋势,是由于对大多数 DBMS产品而言,支
原创力文档

文档评论(0)