数据仓库技术分析.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE 1 PAGE 1 数据仓库技术分析 数据仓库是近几年数据库领域研究的热点问题之一,也是决策支持系统(DSS)与数据库技术的结合点。在对传统的数据库与数据仓库的实现技术进行分析的基础上,争论了数据仓库的实现过程、关键环节及相关技术。 在90年月初W.H.Lnmom提出了“数据仓库(DW,DataWarehouse,以下简称DW)”的概念,它的目标是借助于数据仓库全面、大量的数据存储,依靠数据挖掘技术与数据分析工具,达到高效的决策支持。数据仓库被定义为P是支持管理过程的、面向主题的、集成的、随时间而变的、长久的数据集合。W由于数据仓库是数据库、数据挖掘(DM,DataMining)、联机分析处理(OLAP,On-LingAnalyticalProcessing)等多类技术的结合体,故在实现过程中仍有很多问题急待解决,但可经估计,下一世纪将会有各类实用的数据仓库应用系统问世。本文在对传统的数据库与数据仓库的实现技术进行分析的基础上,计论了数据仓库实现过程、关键环节及相关技术。 1数据仓库与数据库技术的异同 1.1数据的主要特征 数据仓库与数据库的数据特征如: ·面向主题的结构设计——DW是以最终用户的观点组织和管理数据,而传统的数据库为了提高应用程序查询数据的效率,因而以应用的观点设计库结构。 ·管理大量的信息——由于数据仓库的设计目标是在众多的数据库中获得决策信息,因而它含有大量的历史数据(一般为10GB左右)。而传统的数据库一般为100MB,因为传统的数据库为了提高运行效率,通常会对历史数据进行必要的备份后,将其从运行库中清除。 ·异质的数据源——由于数据据仓库的数据源来自于不同种类的文件(内部与外部数据源),故数据存储的介质和格式会有很大的不同。因而数据仓库不但要处理不同数据库中的信息,还必需处理不同格式的数据文件。 ·高度概括的信息——传统的数据库存储的信息详细而具体,但不利于用户理解,数据仓库必需从大量详细的数据中进行高度概括,并挖掘出精确信息。 1.2基本任务 数据仓库基本任务与传统数据库有很大的区分,由于数据仓库的数据源可以来自于不同DBMS的数据库中(内部数据源),也可以来自于不同格式的文件中(外部数据源)。而这些数据源可看作DW中输送数据的管道。在输送数据的过程中,DW的设计者与传统的数据库设计者相比必需考虑如下额外的工作: ·将这些数据源的模型转换为通用的描述形式; ·将同义的数据元素的名称、数据类型、尺寸进行统一的规范——即净化数据元素,这项工作要求严格区分全部数据源的同义词和多义词; ·并非全部数据源中的数据元素都适用于数据仓库,故必需从各数据源中抽取子集,为形成DW的整体模型奠定基础; ·把相似的数据源集成为统一的资源模型; ·通过增加时间戳、来源戳、分割、衍生元素,供应扩展的模型用于存储聚集、概括值,从而获得仓库模型。 1.3数据操作 ·DB中支持用户对DB的大量数据更新操作;DW中则主要是查询操作,更新极少,与DB相比,DW中的数据相对稳定。 ·DB为用户和开发者供应的是特别浩大和复杂的结果;但DW中要供应给用户的是可视化、易于理解的结果。 ·DB中主要保存当前的数据,历史的数据被准时归档后连忙删除,以提高系统运行效率;而DW中则存储了大量的衍生数据,目的是为了节约工作量和提高运行效率,因为对大量的历史数据的处理往往很花费时间。 ·DB包含其所需的、支持操作的全部数据细节;而DW只含有价值的概括性数据。由于上述种种原因,DW与DB相比其建模的方法有很大区分。 1.4数据模型及建模方法 ·数据库的数据模型在传统上有三种:关系型、层次型、网络型。目前流行的数据库主流产品主要是关系型的。 ·数据仓库的数据模型也有以下三种,但与数据库的数据模型不同。它们是:星型模型、雪花模型、混合模型。 2数据仓库的体系结构与处理过程 2.1系统体系结构 DW的体系结构如图1所示。 图1系统体系结构 ·数据源——可以是在不同系统环境下建立的数据库文件和不同种类的数据文件。 ·数据仓库管理工具——负责对数据仓库进行实时管理。包括数据仓库中数据的输入,输入过程中须对数据进行数据的净化、转换概括和聚集等),数据仓库管理工具必需随时监测数据源中的数据。一旦发觉转变,应准时处理,并将正确数据输入至数据仓库中。另外,它还负责数据存储组织、数据的分发、数据仓库的例行维护等等。 ·数据仓库——它是通过数据仓库管理工

文档评论(0)

185****8664 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档