数据仓库导论-副本.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库导论 §1.1 数据仓库的发展 大家知道,管理信息系统早已成功地应用于全球的各行各业,并积累了大量的数据,基本上满足了用户对数据存储、查询和统计的需要,应该说,管理信息系统的成功得益于数据库技术的进一步完善。 随着社会的发展和技术的进步,信息已成为人类社会中除了物质、能源之外的第三大资源,社会的信息化,使信息量急剧增长,大量的信息来不及组织和处理。面对急剧增长的信息,对数据库系统的应用只停留在查询、统计等几个方面,远远没有发挥数据库中数据的作用和价值。 正如奈斯比特在《大趋势》中所说的:“我们正在被信息所淹没,但我们却由于缺乏知识而感到饥饿。”数据库容量的指数增长和对数据库应用的贫乏形成了强烈的反差,导致了大量的数据垃圾。由于大量的历史数据分布在不同的系统平台上,具有多种存储形式,放在不同的数据库中,难以综合访问,因而有人把这些数据称为“数据坟墓”。 另一方面,作为企业的领导和决策者希望从这些复杂的数据中得到有用决策数据。 比如,超市的经营者希望知道哪些商品被同时购买,以便把它们放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征,那类人是它们的最大客户群;医学研究人员希望从已有的成千上万份病例中找出患某种疾病的病人的共同特征,从而为治愈这种疾病体提供一些帮助等等。 对于这些问题,现有的管理信息系统中的数据分析工具很难给出答案,即传统的数据库应用系统并不能很好的支持决策,因为它是面向业务操作设计的,无论是查询、统计还是生成报表,其处理方式都是对指定的数据进行简单的数字处理。不能对这些数据所包含的内在信息进行提取。因此,企业需要新的技术来弥补原有数据库系统的不足。 一、数据仓库概念的提出 如何有效的管理公司和企业在运营过程中产生的大量数据和信息一直是IT业面临的重要问题。20世纪70年代出现的关系数据库为解决这一问题提供了强有力的工具,从20世纪80年代中期开始,随着市场竞争的加剧,信息系统用户不满足仅仅用计算机处理日复一日的运营数据,他们更需要的是从这些数据中得到有用的信息,以便于进行决策支持。这种需求使得在20世纪80年代后期出现了数据仓库思想的萌芽。 1988年Devlin和Murphy发表了一篇关于数据仓库论述的最早文章。 1992年william H.Inmon 在《Building the Data Warehouse》一书中首先系统的阐述了关于数据仓库的思想、理论,从此数据仓库的研究和应用得到了广泛的关注,因而Inmon被人们尊称为“数据仓库之父”。 人们为什么不能在原数据库上作决策,而一定要建造数据仓库呢? 传统数据库对日常事务处理(联机事务处理)(On Line Transaction Process OLTP)十分理想,但是要给予事务处理的数据库帮助决策分析就产生了很大得困难,其原因主要是传统数据库的处理方式和决策分析中的数据需求不相称,主要表现在: 1.决策处理的系统响应问题 在OLTP中,用户对系统和数据库的要求是数据存取频率要高,操作时间要快,由于用户对数据操作时间的短暂,是系统在多用户的情况下,也可保持较高的系统响应时间。例如银行存取系统,银行联网运行实例。 在决策分析处理中,用户对系统和数据的要求则发生了很大的变化。在决策分析中,有的决策问题请求可能导致系统长达数小时的运行,有的决策分析问题的解决则需要遍历数据库中大部分数据,这就必定消耗大量的系统资源,这些是OLTP系统所无法承担的。因此操作型数据和决策分析型数据必须分离。 2.决策数据需求的问题 决策数据需要集成 在进行决策分析时,需要有全面的正确的集成数据,这些集成数据不仅包括企业内部各部门的有关数据,而且还要包括企业外部的甚至是竞争对手的相关数据。但在传统的DB中只存储了本部门的事务处理数据,而没有与决策有关的集成数据,更没有企业外部数据,如果将数据集成问题交给决策分析程序解决,将大大增加决策分析系统的负担,使原先执行时间冗长的系统运行时间更长,用户将更加难以接受,若每次用户进行一次决策分析都需进行一次数据的集成,将极大的降低系统运行效率。 决策数据的集成需进行转换 企业的现行系统中的数据凌乱,究其原因主要是,有的是历史原因,例如:在企业兼并活动完成后,被兼并的企业的信息系统与原企业系统不兼容。有的是系统开发的短视所造成的。例如:在系统开发的系统设计问题缺乏可扩充性,可移植性,有的则可能由于资金缺乏只考虑些关键系统的开发,而对其他系统未予以开发,使决策数据无法集成,因为在不同的应用系统中,可能存在同一实体的属性具有不同的数据类型,不同的字段名称,例如:客户的性别在销售系统中可能用“M”和“F”表示,在财务系统中可能用数字“0”和“1”表示,或者同名的字段在不同的应用中有不同的含义,这些同名异义或同义异名的数据在决策分

文档评论(0)

daijun + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档