- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章数据仓库原理整理ppt
内容提要 数据仓库的结构和技术要求 数据仓库中的数据 元数据 2.1 数据仓库的结构与技术要求 数据仓库的总体结构 数据集市 数据仓库的技术要求 1. 数据仓库的概念结构 数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具 数据仓库的概念结构 数据仓库在创建以后: 首先要从数据源中抽取所需要的数据到数据准备区,在数据准备区中经过数据的净化处理 再加载到数据仓库数据库中 最后根据用户的需求将数据发布到数据集市/知识挖掘库中。 当用户使用数据仓库时,可以通过OLAP等数据仓库应用工具向数据集市/知识挖掘库或数据仓库进行决策查询分析或知识挖掘。 2. 数据仓库的总体层次结构 为实现数据仓库的功能,数据仓库的总体层次结构包括: 数据仓库基本功能层 数据库仓库管理层 数据仓库环境支持层 数据仓库的总体层次结构 (1)数据仓库的基本功能层 从数据源抽取数据 对所抽取的数据进行筛选、清理,将清理后的数据加载到数据仓库中 根据用户的需求设立数据集市,完成数据仓库的复杂查询、决策分析和知识的挖掘等功能。 (2)数据仓库的管理层 数据仓库的管理层包含数据管理与元数据管理两部分。 数据管理与元数据管理主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行管理. (3)数据仓库环境支持层 数据仓库环境支持层主要包含数据传输和数据仓库基础两大部分。 3. 数据仓库的结构模式 数据仓库作为数据存储的一种组织形式,它从最初的数据源获得原始数据,按照决策的要求重新组织,形成具有不同粒度的综合数据层,这是数据仓库结构的一个方面。 数据仓库还需要对其中存储的数据进行操纵、管理等,以支持决策,这是数据仓库结构的另一方面。 (1)数据仓库的自顶向下结构 自顶向下结构 这种结构开始于对原始数据的处理。 包括抽取、转换、迁移等处理过程,用于将传统数据库或外部数据源的数据处理后输出到一个集中的数据驻留单元。 随后,数据和元数据装载进入数据仓库。 一旦这些过程完成,就可根据数据仓库所包含的各种数据来建立数据集市。 在数据仓库中不但包含全部的元数据、当前详细数据,同时还存储详尽的历史数据。 数据集市则拥有轻度和高度综合的数据及元数据。 发展状况 在自顶向下的结构中,数据仓库普遍采用实体关系(Entity Relationship,E-R)数据模型,而数据集市则采用星形数据模型来提高性能。 只要能满足数据集市是作为数据仓库子集的这条原则,数据仓库和数据集市间的集成就能自动完成。 这种模式要求首先建立数据仓库,但是由于数据仓库建设规模较大,实施周期长,费用高,初期效果并不明显,甚至最终失败,致使许多企业不愿或无法承受。 2. 数据仓库的自底向上的结构 数据仓库的自底向上的结构 基于上述情况,一种自底向上建设多级数据仓库的思想也就产生了,即建立数据集市的思想。 这种思想的核心是从最关键的部分开始,先以最少的投资,完成企业当前需求,获得最快的回报,然后再不断扩充,不断完善、通过从小做起、从部分做起,走逐步集成、逐步完善的道路,最终建立全局数据仓库。 这种结构有助于部门级管理人员合理安排预算和及时采用新的数据仓库技术来产生合乎自己角色的专门应用。自底向上的结构逐渐为人们所认同。 数据仓库的构建过程 自底向上结构的核心是通过独立开发的数据集市逐渐构建数据仓库。 这种结构的流程从建立数据集市的抽取、转换、转移和装载过程开始,在这些过程中,不需要一个通用的数据驻留单元,因为每个数据集市都可能有自己独立的存储区域,甚至每个数据集市的数据抽取、转换、转移和装载的工具都可能不同。 自底向上 VS 自定向上 从集成的角度来看,自底向上与自顶向下结构的最大差异在于: 前者不需要为创建数据集市而具备通用的元数据部件。 2.1.2 数据集市 数据仓库在管理、决策组织中的作用逐渐为人们认同,但是在全组织范围内构建数据仓库的工作量大、代价很高。 一方面,如何满足组织中不同层次管理决策要求是一个需要解决的复杂问题; 另一方面,在实施过程中由于很难全面了解组织管理决策要求,易造成项目进度拖延,建成的数据仓库起不到应有的作用,因此导致失败的例子也不鲜见。 提出了数据集市(Data Mart)的概念。 什么是数据集市 数据仓库在全组织范围内为各个部门提供管理、决策支持,而数据集市通常在部门级,一般只能为某个局部范围内的管理人员服务, 因此也称之为部门级数据仓库.(Department Data Warehouse) 数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或具体部门级的应用,支持用户利用已有的数据进行管理决策。 数据集市的特点 数据集市除具有数据仓库的基本特征以外,还具有以下特点: ①规模较小,灵
文档评论(0)