- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据集市≠数据仓库
NCR公司可扩展数据仓库解决方案小组王闯舟编译
我们知道,决策支持系统(DSS)主要有两种实现方式,即建立一个数据集市或者一个数
据仓库。到底哪一种更能满足决策支持的要求并且适合企业今后的发展,是近两年来学术界和有关供应商激烈争论的一个话题。
在数据集市领域,主要的供应商和拥护者以美国红砖(RedBrick)公司为代表,其总裁RalphKimball在1997年12月的一篇论文中提出,数据仓库只不过是一些数据集市的集合而已。认为企业多建立一些数据集市,将来自然就形成了数据仓库。而业界公认的数据仓库之父BillInmon在今年1月立即撰文反驳,旗帜鲜明地指出,你可以在大海中捕到很多的小鱼并堆积起来,但它们仍然不是鲸。在5月份的《数据管理综述》(DataManagementReview)中,BillInmon又发表了数据集市不等于数据仓库的论文,进一步阐述两者在本质上的区别以及各自的适用场合,本文就是根据这篇论文的主要内容编译而成的。
问题的提出
现在,各企业IT部门的经理所面临的最主要问题之一是先建立数据仓库还是先建立数据集市。长期以来,数据集市供应商们不断地给他们灌输这样的观念,即建立数据仓库比较复杂,投资过大,设计与开发周期太长,难以集成和管理企业范围内的各种源数据;并认为,基于数据仓库的DSS投资方案难以得到企业管理层的批准。数据集市供应商们给业界描绘了一幅数据仓库前景暗淡的图画,这完全是出于自身的目的,是不正确的。
数据集市供应商们把数据仓库当成其增加营业收入的绊脚石,自然要避开和攻击数据仓库。事实上,他们在销售时强调数据集市的建设周期短,是以企业信息系统结构的长期规划为代价的。
持数据集市主张的人认为,决策支持系统的成功实现,除了数据仓库以外,还有更简便、更有效的其它途径。方法之一就是建立多个数据集市,当它们增加得足够大时,那就是所谓的数据仓库了。这些人声称,建立数据集市要快得多也便宜得多,因为当考虑建立一个数据集市时,不必考虑各部门之间的区别,也不必设立部门之间协调的规则,更不存在结构设计上的长期规划问题。
不幸的是,这种方法虽然避免了建立数据仓库存在的部门协调与规划上的问题,却完全偏离了数据仓库的要点。当企业的信息结构完全由数据集市构成时,其整个组织将变得更加混乱。因为在建立决策支持系统以前,我们可能只是原来的生产系统有些凌乱,现在的状况则可能是凌乱的生产系统再加上杂乱的数据集市。由于企业内所有的决策支持系统均是数据集市,相互之间没有集成,其结果可想而知——没有集成的决策支持系统就像没有骨骼的人体一样,是没有实用价值的。
方式的改变
早期,数据集市供应商们宣称数据集市和数据仓库是相同的系统,试图通过这种偷梁换柱的方式来进入数据仓库市场。在各种展示会期间,他们不遗余力地进行着各种宣传,从而混淆了数据集市与数据仓库的概念。
由于这种错误概念的传播,使一些客户建立了数据集市而非真正的数据仓库。但随着时间的推移,数据集市结构上的缺陷开始暴露出来,主要体现在以下几点:
建立的,它面向企业范围内的主题。一般来讲,数据仓库是由一个中央的协调组织(例如传统的IT部门)来建立和管理。数据仓库完全是整个企业共同努力的结果。
某个部门的主题与企业的主题之间可能存在也可能不存在关联。数据仓库中存储整个企业内非常详细的数据,相对而言,数据集市中数据的详细程度要低一些,相反,它包含了许多概要和累加数据。数据仓库的数据模型一般是规范的,比较多的是符合第三范式。其数据的结构和内容反映的不是某个特定部门的特殊要求,它代表的是整个企业对于数据的需求。数据仓库中的数据量与数据集市差别很大,因此,数据仓库中的索引很少。这和传统的OLTP数据库有很大的区别。数据仓库中包含有相对稳定的历史数据,所有数据都是从许多操作数据源中经一定的业务规则转换并集中进来的。简而言之,在数据仓库与数据集市中,无论是数据的结构还是其内容都存在着显著的差别。图2形象地说明了这种区别。左边的数据集市是星形连接结构,而右边的数据仓库是正则结构,各实体之间通过外键(ForeignKey)连接。
@@0489401.JPG;图2@@
由于数据仓库中的数据是详细的、集成的和历史的,其中的数据量一般都很大,而且随着时间的推移,增长速度也非常快。因此,建立数据仓库最好是分步进行,否则建设周期将非常长。即使从最早的文献来看,学术界就几乎公认建立数据仓库必须使最终用户能尽快看到具体、明确的结果。直到现在,有关的专栏作者和咨询顾问们还是一致认为数据仓库的建设速度必须很快,尽量避免冗长、庞大的投资行为。当然,这并不意味着数据仓库的投资小,正确的理解是,数据仓库一般是从小处着手,取得一定成效后再逐步完善。世界上许多成功的1000GB(指用户数据量而非数
文档评论(0)