数据仓库、贸易智能的体系结构 转.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库、贸易智能的体系结构 转 如图16-5所示是数据仓库/贸易智能的完整的体系结构图,根据数据的不同形态,整个体系被划分为4个大的层面,并根据数据的处理和应用过程再细分成7个环节。从数据源经过抽取(Extra,E)、转换(Transform,T)、装载(Load,L)过程加载到中心数据仓库,再从数据仓库经过分类加工放到数据集市(DM,Data Market),或者将数据集市中的数据进一步存放到*数据库(MDD,Multi-dimension Database)中,这都属于数据组织的题目,从中间层到终端用户或从*数据库到终端用户可将其划回为前端应用实现的题目。而贯串整个体系数据处理环节的,是系统的流程调度控制和元数据治理。 图16-5数据仓库/贸易智能体系结构图数据源可以是企业日常运作积累下来的各类的业务数据,也可以是外部的数据。这些数据在存放方式、存放格式、存放地点上可能是多种多样的,这就要求数据仓库的体系结构必须能处理由这种多样性带来的种种题目,如访问多种技术平台下,多种类型的DBMS内的数据,并解决由于数据远程迁移所带来的完整性和安全性题目。数据抽取、转换和装载完成如下任务:从源数据抽取数据、进行一定的变换、装载到数据仓库。在上述过程中,需要进行如下数据处理。 l简单变换:是数据变换最简单的形式,一次只针对一个字段,而不是考虑相关字段的值。主要有数据类型的转换、日期/时间的格式转换、字段解码等。 l清洁和洗擦:目的是为了保证前后一致地格式化和使用某一字段或相关的字段群。清洁和洗擦是两个可以互换的术语,指的是比简单变换更为复杂的一种变换。在这种变换中,要检查的是字段和字段组中的实际内容而不仅是存储格式。一种检查是检查数据字段值的有效值,它指的是检验一个字段的有效值以保证它落在预期的范围之内,通常是数字范围和日期范围。数据洗擦的另一主要类型是重新格式化某些类型的数据,这种方法适用于可以用很多不同方式存储在不同数据来源中的信息,必须在数据仓库中把这类信息转换成一种同一的表示方式。 l集成:要把从来源全然不同的数据结合在一起,真正的困难在于将其集成一个紧密结合的数据模型。这些数据来源往往遵守的不是同一套业务规则,在天生新数据时,必须考虑到这一差异。 l聚集和概括:大多数数据仓库都要用到数据的某种聚集和概括。这通常有助于将某一实例的数目减少到易于驾驭的水平,也有助于预先计算出广泛的概括数字,以使每个查询不必计算它们。概括是指按照一个和几个业务维将相近的数值加在一起,聚集是将不同业务元素加在一起或为一个公共总数,在数据仓库中它们是以相同的方式进行的。数据仓库的一个目的就是把企业的信息访问基础,从一种非结构化的或发展中的环境改变成一种结构化或规划良好的环境。 对于传统的业务处理(OLTP)系统,我们总是按照业务应用来建立它的模型,换言之,业务处理系统是面向应用来设计的,更正确地说是面向交易来设计的。而数据仓库则一般按照主题(Subject)来建模,它是面向主题的。何谓应用?何谓主题?让我们来看一个简单的例子。在银行中,一般都有对私(个人储蓄)、对公(企业储蓄)、信用卡等多种业务系统。它们都是面向相关业务应用设计的交易处理系统,主要任务是完成业务交易过程中的数据处理。数据库在设计时围绕性能和完整性方面,而每个交易涉及的数据往往只是记录的层面,数据库设计主要考虑并行更新方面,并不需要考虑为全表范围的查询做优化,而系统本身所支持的交易类型简单而且固定。由于历史原因,这些系统设计的时候都是独立进行的,所以可能运行在不同的平台上,相互之间没有什么关系,各系统之间对相同的业务信息还存在数据上的冗余。比如每个系统中都会有客户的数据,这种数据的零碎和冗余,使决策者很难从这些业务系统中直接获取全面的信息。 为了克服这个弊病,建立数据仓库应用时,要把业务系统中的数据从中抽取出来,转换和清洗以消除数据的不一致性和冗余,加载到数据仓库中来。这样,数据仓库中的数据就从整个银行角度来看,其数据模型不再面向个别应用,而是面向整个银行的业务主题,比如客户、产品、渠道等。因此,各个生产系统中与客户、产品、渠道等相关的信息将分别转换到数据仓库中相应的主题中,从而给银行的决策者提供一个一致的完整的信息视图。按照W.H.Inmon这位数据仓库权威的说法:数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,它支持治理部分的决策过程。这个简短而又全面的定义指出了表明数据仓库主要特征的4个关键词:面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)区别开来。让我们进一步看看这些关键特征。 l面向主题的(Subject-Oriented):数据仓库围绕一些主题,如顾客、供给商、产品和销售组织。数据仓库关注决策者的数

文档评论(0)

189****6649 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档