- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 数据仓库原理 第2章 数据仓库原理 2.1数据仓库的结构与技术要求 2.1.1数据仓库的总体结构 2.1.2数据集市 2.1.3数据仓库的技术要求 2.2数据仓库中的数据 2.2.1数据仓库的数据组织 2.2.2数据模型 2.2.3数据仓库的概念模型 2.2.4数据仓库的逻辑模型与物理模型 2.3元数据 2.3.1元数据的作用 2.3.2元数据的分类 2.3.3元数据的标准化 2.3.4数据粒度 2.1 数据仓库的结构与技术要求 2.1.1 数据仓库的总体结构 1. 数据仓库的概念结构 从数据仓库的概念结构看,应该包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。 数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。 图2-1 数据仓库的概念结构 2.数据仓库的总体层次结构 为实现数据仓库的功能,数据仓库的总体层次结构应该由数据仓库基本功能层、数据仓库管理层和数据仓库环境支持层组成。 (1)数据仓库的基本功能层应该包含从数据源抽取数据,对所抽取的数据进行筛选、清理,将清理后的数据加载到数据仓库中,根据用户的需求设立数据集市,完成数据仓库的复杂查询、决策分析和知识的挖掘等功能。 (2)数据仓库的管理层包含数据管理与元数据管理两部分。数据管理与元数据管理主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理。 (3)数据仓库环境支持层主要包含数据传输和数据仓库基础两大部分。这两大部分对于数据仓库的创建和使用来说是必不可少的,没有这两个数据仓库的支持环境,数据仓库的创建与使用是无法实现的。 3.数据仓库的结构模式 (1)数据仓库的自顶向下结构,这是最早提出的数据仓库结构。 (2)数据仓库的自底向上结构,核心是通过独立开发的数据集市逐渐构建数据仓库。 2.1.2 数据集市 1.数据集市的特点 数据集市除具有数据仓库的基本特征以外,还具有以下特点: (1)规模较小,灵活,可以按照多种方式 来组织,如按特定的应用、部门、地 域、主题等。 (2)发工作一般由业务部门主持定义、设 计、实施、管理和维护。 (3)能够快速实现,代价较低,投资回收期 短,风险小。 (4)具集的紧密集成。 (5)有利于进一步升级到完整的数据仓库或形 成分布式数据仓库。 2.数据集市的类型 数据集市可以分为两种,一种是独立数据集市(Independent Data Mart),另一种是从属数据集市(Dependent Data Mart) 3.企业级数据集市结构 尽管自底向上结构也存在许多缺点,但它基于数据集市构建数据仓库的由小到大,由部分到整体的思想给后来者很大的启发。 2.1.3 数据仓库的技术要求 1.数据管理技术 (1)大批量数据管理 在数据仓库的所有技术中最重要的是管理大批量数据技术。如果不能管理大批量数据,那么数据仓库的创建与使用是不可能的。管理大批量数据包括管理大批量数据能力和管理好大批量数据的能力,即管理大批量数据技术要求管理能力的满足和管理的高效率两方面要求。 一般数据仓库对大批量数据的管理可以通过对文件的寻址、索引,数据的外延,有效的溢出管理等技术来实现。 (2)数据仓库的高效率索引与数据监视技术 数据仓库中对数据的访问应有灵活性,即对数据具有快速和易访问的能力。显然,如果数据不能被方便地检索和访问,数据仓库很难适应大数据量存储和处理的要求。因此,支持辅助索引、稀疏索引、动态索引和临时索引等的索引技术就变得十分重要,还必须考虑创建索引和使用索引的代价等。 另一方面,能够随时监控数据仓库有许多方面的原因,包括: A.决定是否对数据进行重组。 B.决定索引结构的有效性。 C.决定数据仓库中的数据是否溢出。 D.决定数据的统计组成。 E.决定剩余可用空间。 如果某项技术不能高效和方便地监视数据,则这
文档评论(0)