第1节数据仓库概要.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1节数据仓库概要

1.l数据库到数据仓库的演变 两个分析的数据都来自于企业数据库,但是结论却不同,下面通过分析两个过程的差异来寻求原因。 首先,市场部门和计划部门从企业数据库中抽取的数据可能不同,比如,市场部抽取的是在大客户中对业务A的使用情况,而计划部抽取的是在普通客户中对业务A的使用情况,二者分析的数据存在差异。 其次,市场部分析的时间是2001年3月5日,而计划部分析的时间是2001年3月25日,两个分析过程从企业数据库中抽取数据的时间不同,企业数据库中的内容已经发生了变化,这很可能导致分析的结果不同。 再次,分析业务的发展趋势常常需要引入企业外部的信息,比如客户的满意程度,国家的政策等,市场部门引用的外部信息来源可能与计划部不同,而外部信息必然是仁者见仁,智者见智,这也可能是导致最终分析结果不同。 最后,市场部门使用的分析程序可能与计划部不同,通过上面的分析,我们可以看出导致两个分析过程出现截然相反的结论的根本原因是数据的来源部一致,对于不同来源的数据的分析结果显然是不一致的。 2.数据处理的效率很低 在错综复杂的体系中,不同级别的数据库可能使用不同类型的数据库系统,对于有巨型数据量的企业级数据库可能使用IBM DB2,对于中小型数据库可能使用SQL Server。各种数据库的开发工具和开发环境不同,抽取程序应用的技术不同,因而难以集成。 如果一个大型企业的决策者需要一份关于公司整体运营情况的报表,通常需要动用大量的人力和物力才能达到,首先,需要确定报表涉及的内容分布在哪个数据库的哪个位置,然后调动各个部门的程序员\分析员对应用进行分析,设计和编码。 由于数据分散在各个数据库中,因此需要编写的程序很多。由于在企业中使用的数据库类型很多,因此可能需要使用多种的技术来实现。程序的重用性很差,因为决策者明天想看的内容很可能和今天是不同的。可见,动用大量的人力,物力和时间才能完成的报表不仅实效性很差,数据处理的效率也很低。 3. 难以将数据转化成信息 除了数据处理效率和数据的可信度之外,“蜘蛛网”式的结构还难以将数据转化为信息。比如,某电力公司想分析某个大客户今年的情况和过去的3年有什么不同?大客户的情况可能包括客户的呼叫行为,话费情况,交费情况,咨询问题等。因此想要比较完整的回答这个问题,实际上需要将客户多方面的数据综合成信息。 在实际的数据库系统中,记录客户呼叫行为的数据库通常只保留客户最近3个月的呼叫话单,帐务数据库可能保留客户今年的交费情况,客户咨询数据库可能保留客户2年内的咨询信息,如图1-4所示。每个数据库由于其数据量和业务处理的需求不同,对于历史数据的存储时间也不同,因此以现有的数据库系统难以提供完整的历史数据,鉴于这样的原因,用户根本不可能从这些数据中提取出完整的信息。 操作型系统的使用人员通常是企业的具体操作人员,处理的数据通常是企业业务的细节信息,其目标是实现企业的业务运营;而分析型系统的使用人员通常是企业的中高层的管理者,或者是从事数据分析的工程师。分析型系统包含的信息而非具体的细节,其目的是为企业的决策者提供支持信息。操作型系统和分析型系统的划分如图1-4所示。 操作型处理和分析型处理的分离,划清了数据处理的分析型环境和操作型环境之间的界限,从而由原来以单一数据库为中心的数据环境发展为以数据库为中心的业务处理系统和以数据仓库为基础的分析系统。企业的生产环境,也由以数据库为中心的环境发展为以数据仓库为中心的环境,如图1-5所示。 建立ODS实际上是建立了一个全局数据库,它通过在 ODS中的纪录系 统定义和参考表来建立一系列DB和ODS纪录间的双向联系,以实现数据在 企业级上的同步。 ODS的纪录系统就是说明如何从DB中向ODS进行数据抽取。有了ODS 纪录系统后, DB 中对应的数据项发生变化,都将反映到相应的 ODS 记录 中。反过来,参考表建立的是从 ODS 数据项到 DB 数据项的反向映射。当 ODS中的记录发生变化时,将通过参考表去修改与之相关的DB中的所有数 据项,其过程如下图2-41,数据库A、B、C都存在相同含义的数据,数据库 A中的数据项发生变化后,通过ODS记录系统定义,反映到ODS中对应的 数据项,再通过参考表去更新数据库B和C。 通过记录系统定义和参考表,使得原先分散的数据库系统被紧密地 结合起来,一点动,全局变。建立ODS后,当人事处完成了人员调动的 手续后,这些变更信息通过ODS反映到企业的各个数据库中,调动的人 员可直接到新单位报道,这样可以大大的缩短办理手续的时间其过程。 如

您可能关注的文档

文档评论(0)

karin + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档