高级数据库技术 知识库技术04.ppt

  1. 1、本文档共123页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * ② 业务元数据: 从业务角度描述了数据仓库中的数据,它提供了具体业务到实际系统的转换语义,使非计算机科学专业的分析人员也能够理解数据仓库中的数据。 业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括: 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系; 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据库中有所体现。 商业元数据:包括商业术语和定义、数据所有者定义和收费策略等。 4.5.11 数据仓库管理 数据仓库管理是数据仓库良好运转的保证。数据仓库管理工具包括管理部件,建模工具,ETL工具,元数据管理等,他们完成数据从数据源到数据仓库的装载,并管理数据仓库中的数据。 建模工具根据数据仓库的需求建立数据模型,设计和定义数据仓库的数据库,确定数据源向数据仓库装载的过程。 管理部件主要对数据仓库中的数据进行维护、安全、备份、恢复、日志等工作。这些工作需要借助数据库管理系统的功能实现。 数据管理: 对于数据仓库,第一个也是最重要的技术需求就是能够管理大量的数据。有多种管理大量数据的方法——通过寻址,通过多索引,通过数据的外延,通过有效的溢出管理,等等。管理大量的数据的内涵是指具备管理大量数据的能力和能够管理好的能力。 介质管理: 在处理大量数据时,为了平衡访问速度和存储费用之间的矛盾,数据仓库对数据通常进行分层次、分介质进行存储。数据仓库技术应该能管理多种存储介质上的数据,对磁盘资源使用进行控制,增强了资源利用率。 数据的并行存储管理: 数据仓库中数据管理的最重要的特征之一是数据的并行存储/管理。整个数据的并行存储/管理是非常复杂和重要的,当数据被并行存储和管理时,性能上会提高很多。通常,假定对数据的访问都是等概率的话,性能的提高与数据所分布的物理设备的多少成反比。 元数据管理: 元数据管理,也可称信息目录管理,用于存储数据模型、定义数据结构、转换规则、数据仓库结构和控制信息等,完成元数据的管理及对整个数据仓库的检测和管理。数据仓库中元数据比在关系操作型的数据库中的元数据更重要。典型的元数据包括:数据仓库表的结构、从记录系统到数据仓库的映射、据模型的规格说明等。 语言接口: 数据仓库需要有非常丰富的语言规定。没有一种健壮的语言,在数据仓库中访问数据就非常困难。而且,访问数据仓库的语言一定要是高效的。典型的数据仓库语言接口需要:能够一次访问一组数据;能够一次访问一条记录;要保证能够支持一个或多个索引;有SQL接口;能够插入、删除、更新数据等功能。 4.6 数据仓库的应用技术 目前有多种不同的技术可实现前端工具的信息采掘,大体可以归纳为两种模式,即验证型(Verification)和发掘型(Discovery)。不论从两者功能上还是从实现的技术层面上来看,它们都是截然不同的。主要差异在于: (1)前者用于验证假设,而后者用于产生假设; (2)前者通过反复的、递归的检索查询以肯定或否定某种假设,即从数据仓库中发现业已存在的事实,这方面的工具主要是多维分析工具,如OLAP技术;而后者主要负责从大量数据中发现数据模式(Pattern)、预测趋势和未来的行为,这方面的工具主要是指数据挖掘(Data Mining)技术。目前立足于数据仓库之上的应用主要也是指联机分析OLAP、数据挖掘DM等方法。 4.6.1 OLAP技术 OLAP这一术语是1993年关系数据库之父E.F.Codd在“Providing OLAP to User-Analysts: An IT Mandate”一文中首次提出的。 Codd针对联机事务处理(OLTP) 所进行的简单查询不能满足用户对数据库查询分析的需要,提出了多维数据库和多维分析的概念,即OLAP。 OLAP是以海量数据为基础的复杂分析技术,它使用多维数据模型作为逻辑数据模型,利用人工查询及可视化方式浏览数据仓库内容,并对其中的数据进行多维分析,且能及时地从变化和不太完整的数据中提取出与主题密切相关的信息。 几个关于OLAP的典型定义: E.F.Codd的定义:OLAP是一个赋于动态的、企业分析的名词,这些分析是注释的、熟思的、公式化数据分析模型的生成、操作、激活和信息合成。这包括能够在变量间分辨新的或不

文档评论(0)

zilaiye + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档