- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第八章 数据仓库 本章主要内容 从数据库到数据仓库 什麽是数据仓库 数据仓库中的数据组织 数据库体系化环境 §8.1 从数据库到数据仓库 数据库系统作为数据管理手段,主要用于事务处理。 传统的DSS一般是直接建立在这种事务处理环境上的。 数据库技术一直力图使自己能胜任事务处理到分析处理的各种类型的信息处理任务。 尽管数据库在事务处理方面的应用获得了巨大的成功,但它对分析处理 的支持一直不能令人满意。尤其适当以业务处理为主的联机事务处理(OLTP)和以分析处理为主的DSS应用共存于同一个数据库系统时,这两种类型的处理发生了明显的冲突。 事务处理与分析处理具有极不相同的性质,直接使用事务处理环境来支持DSS是极困难的。 事务处理环境不适宜DSS的原因 事务处理与分析处理的性能特性不同 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短,因此可以允许多个用户按分时方式使用系统资源,同时保持较短的响应时间。 在分析处理环境中,用户的行为模式与此完全不同,某个DSS应用程序可能需要连续运行几个小时,从而消耗大量的系统资源。 事务处理环境不适宜DSS的原因 数据集成问题 DSS需要集成的数据,全面而正确的数据是有效的分析和决策的首要前提。DSS不仅需要整个企业内部各部门的相关数据,还需要企业外部、竞争对手等处的数据。 事务处理的目的在于使业务处理自动化,一般只需要与本部门业务有关的当前数据,而对整个企业范围内的集成应用考虑较少。 事务处理环境不适宜DSS的原因 数据集成问题 当前绝大部分企业内的数据的真正状况是分散而非集成的。造成这种分散的原因有多种,主要由事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据和非结构化数据。 尽管每个单独的事务处理应用可能是高效的,能产生丰富的细节数据,但这些数据却不能成为一个统一的整体。对于需要集成数据的DSS来说,必须在应用程序中对这些纷繁的数据进行集成。可是数据集成是一项十分繁杂的工作,每做一次分析,都要进行一次集成,这将导致极低的处理效率。 事务处理环境不适宜DSS的原因 数据动态集成问题 由于每次分析都要进行集成的开销太大,一些应用仅在开始对所需数据进行了集成,以后就以这部分集成的数据作为分析的基础,不再与数据源发生联系,我们称这种方式的集成为静态集成。静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了改变,这些变化将不能反映给决策者。因此集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成。 事务处理环境不适宜DSS的原因 历史数据问题 事务处理一般只需要当前的数据,在数据库中一般也只存储短期数据,且不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。 对于决策分析DSS来说,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托,没有对历史数据的详细分析,是难以把握企业的发展趋势的。 事务处理环境不适宜DSS的原因 数据的综合问题 在事务处理环境中积累了大量的细节数据,一般而言DSS并不对这些细节数据进行分析。这主要由两个原因,一是细节数据数量太大,而是太多的细节数据不利于分析人员将注意力集中于有用的信息上。因此在分析前,往往需要对细节数据进行不同程度的综合。 而事务处理系统不具备这样的综合能力。 数据仓库的产生 从以上的分析可见,在事务型环境中直接构建分析型应用是一种失败的尝试。要提高分析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照DSS 处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。 §8.2 什麽是数据仓库 关于数据仓库的几种说法 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的(即与企业定义的时间区段相关)、面向主题及不可更新的数据集合。 操作型数据与分析型数据的区别 数据仓库的定义 数据仓库就是一个用于更好的支持企业或组织的决策分析处理、面向主题的、集成的、不可更新的、随时间不断变化的数据的集合。 主题与面向主题 与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是按照主题进行组织的。 主题是一个抽象的概念,在逻辑意义上它是对应企业中某一宏观分析领域所涉及的分析对象。 面向主题的数据组织方式,就是在较高层次上对分析对象所涉及的企业的各项数据,以及数据之间的联系。 目前数据仓库仍是采用关系数据库技术来实现的。 面向主题举例 一家采用“会员制”经营方式的商场,按业务已建
文档评论(0)