- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术篇三:数据仓库与数据挖掘
技术篇三: 数据仓库与数据挖掘 山东大学(威海)商学院 付宜强 E-mail:fyq868@ 第一部分: 数据仓库 一、数据仓库概述 数据仓库与CRM有着难以割舍的密切关系,客户关系管理的很多工作都是以数据仓库为基础展开的。从某种意义上说,数据仓库是客户关系管理的灵魂。 利用数据仓库,企业可以对客户行为进行分析与预测,从而发现企业的重点客户、制定准确的市场策略和评价市场性能。 因此,对于客户量大、市场策略对企业影响较大的企业来说,必须在客户关系管理系统中建设数据仓库。 1、数据仓库的产生 早期的数据库主要支持联机事务处理 --在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题。 --在20世纪整个80年代至90年代初,联机事务处理(OLTP)是数据库应用的主流。 --如银行的储蓄系统、电信的计费系统等 传统数据库系统不适宜决策支持应用 事务处理和分析处理的性能不同 数据集成问题 数据动态集成问题 历史数据问题 数据的综合问题 (1)事务处理和分析处理的性能不同 所有联机事务处理强调的是数据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短。 在联机分析处理环境中,用户的行为模式与此完全不同,强调的是数据处理和分析的能力。在传统数据库系统基础上的DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。 联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全,将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。 (2)数据集成问题 DSS需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集地越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。 造成这种分散的原因有多种,主要有事务处理应用分散、数据不一致问题(格式、描述方式)、外部数据和非结构化数据。 (3)数据动态集成问题 静态集成的最大缺点在于,如果在数据集成后数据源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。 集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。 (4)历史数据问题 事务处理一般只需要当前数据,在数据库中一般也是存储短期数据,且不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也被束之高阁,未得到充分利用。 但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有历史数据的详细分析,是难以把握企业的发展趋势的。DSS对数据在空间和时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。 (5)数据的综合问题 在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不同程度的综合。 而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。 小 结 有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。 要提高分析和决策的效率和有效性,分析型处理及其数据必须与事务型处理及其数据相分离。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。而数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。 数据仓库的数据从联机事务处理系统、异构的外部数据源、脱机的历史业务数据中得到。它是一个联机的系统,专门为统计分析和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。 2、数据仓库的概念和特征 目前,数据仓库一词尚没有一个统一的定义。 著名的数据仓库专家 W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述: 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策。 数据仓库概念的两个层次 首先,功能上:数据仓库用于支持管理决策,面向分析型数据处理,它不同于企业现有的操作型(事务型)数据库; 其次,内容和特征上:数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 数据仓库四个特点—面向主题 传统的数据库是面向事务处理而进行数据组织的,其抽象程度不够高。但这种方式能较好地将企
文档评论(0)