数据仓库与数据挖掘算法比较.docxVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘算法比较

数据仓库与数据挖掘算法比较数据仓库随着处理信息量的不断加大,企业需要多角度处理海量信息并从中获取支持决策的信息,面向事务处理的操作型数据库就显得力不从心,面向主题集成大量数据的数据仓库技术产生。数据仓库因其面向主题性,集成性,稳定性和时变性,不仅在数据的集成,存储上效果好,在从操作系统提取信息和支持系统造作者的前端工具上更是充分利用了数学严谨的逻辑思维和统计学知识,以及先进的信息技术,使企业的信息利用更有价值。数据仓库按照特定的方法(ETL)从数据源中提取数据,以特定主题作为维度,利用特定的算法集成数据,给数据用户提供实时查询,最终集成有效信息供决策者使用。数据仓库是个过程而不是一个项目,是一个解决方案而不是一个产品。?数据仓库之父比尔·恩门(Bill?Inmon)在1991年出版的“Building?the?Data?Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(Subject?Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time?Variant)的数据集合,用于支持管理决策。数据仓库系统以数据仓库为核心,通过数据分析与报表模块的查询和分析工具(OLAP、决策分析、数据挖掘)完成对信息的提取,以满足决策的需要。数据仓库主要由数据源、数据仓库、业务数据仓库、数据分析与报表、数据管理、元数据管理、传输和基础结构几部分构成:数据源是数据仓库中的数据来源,它主要来自操作型环境的数据库,包括一些产品数据、遗留数据、外部来源数据等。数据管理:数据库中的数据在进入数据仓库以前,必须经过规范化处理,数据管理模块根据在数据中所描述的映射关系和各种整理规则,把来自不同数据源的数据转换到数据仓库中,对数据进行清洁、增强、变换、和加载的处理并且根据在元数据中所描述的较验规则和专家知识,消除数据的不一致性和不合理性。目录信息:它通过提供一整套用来维护和观察仓库元数据的工具来实现技术用户和业务用户访问和利用数据仓库系统的能力。目录信息的主要元素有元数据管理员、技术元数据、业务元数据及信息导航。数据集市和数据商场:数据集市和数据商场是为满足特定的数据需求而创建的数据仓库。它可以看作是全局数据仓库的一个子集,是对部门级的应用而建立的数据仓库。分析与报表:要使数据仓库发挥其真正的作用,必须要有一个强有力的分析工具。数据分析与报表部分是从大量的数据中提取出原来未知的数据间相互关系,找出数据间潜在的模式,发现经营者可能忽略的信息,并为企业做出前摄的、基于知识的决策。它包括报表生成具、OLAP、数据挖掘、决策支持工具。这里比较重要的是OLAP和数据挖掘。OLAP建立在客户/服务器结构之上,支持多维数据分析,OLAP是由用户驱动的,在用户的指导下验证分析家设定一些假设。数据挖掘应用在数据上,并产生一些假设,当用户使用数据挖掘工具来挖掘数据时,是挖掘工具来进行开发。例如:分析家假设那些高负债和低收入的人有信用风险,他们可以用各种方式验证和反验证这些假设;而数据挖掘工具可以用来发现给予信用的风险因素,比较可能会发现具有高负债和低收入的人有信用风险,它还会发现一种分析家们难以置信的模式,如负债/收入与年龄所预示的风验。元数据管理:元数据定义为“关于数据的数据”,元数据代表定义数据仓库对象的任何东西,无论是一个表、一个列、一个查询、一个商业规则,或者是数据仓库内部的数据转移。元数据基本有四类:第一类是关于数据仓库潜在数据来源的信息;第二类是关于数据模型的信息;第三类是业务数据与仓库数据结构间的映射;第四类元数据是仓库中信息的使用情况。传输和基础结构:传输层使用了刷新与复制技术、数据传输、传送网络以及中间件等构件,在硬件/软件平台间架起了必要的通信桥。其中刷新与复制技术包括传播和复制系统、数据库网关内定义的复制工具、数据仓库指定的产品;数据传输和传送网络包括网络协议、网络管理框架、网络操作系统、网络类型;客户/服务器代理和中间件包括数据库网关、面向消息的中间件、对象请求代理。概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业决策所需信息。数据仓库也常常被看作一种体系结构,通过将异种数据源中的数据集成在一起而构造,支持结构化和启发式查询、分析报告和决策制定。数据仓库系统是多种技术的综合体。在整个系统中,数据仓库居于核心地位,是数据挖掘的基础,是整个系统发挥作用的关键。根据上面的讨论,我们把建立数据仓库看作构造和使用数据仓库的过程。数据仓库的构造需要数据集成、数据清理、和数据统一。利用数据仓库常常需要一些决策支持技术。这使得“知识工人”(例如,经理、分析人员和主管)能够使用数据仓库,快捷、方便地得到数据的总体视图,根据数据仓库中的信息

文档评论(0)

xxj1658888 + 关注
实名认证
文档贡献者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年04月12日上传了教师资格证

1亿VIP精品文档

相关文档