数据挖掘工具.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘工具 数据仓库体系结构中存在三个关键问题,即数据仓库的目标数据库选择、数据抽取和转换工具及前端数据访问和分析工具。 一、数据仓库的组成部分 数据仓库技术从本质上讲,是一种信息集成技术,它从多个信息源中获取原始数据,经过加工处理后,存储在数据仓库的内部数据库中。通过向它提供访问工具,为数据仓库的用户提供统一、协调和集成的信息环境,支持企业全局的决策过程和对企业经营管理的深入综合分析。 为了达到这样的目标,一个数据仓库一般来说包含以下7个主要组成部分: (1)数据源:为数据仓库提供源数据,如各种生产系统数据库、OLTP系统的操作性数据,外部数据源等到可以作为数据仓库的数据源。 (2)数据抽取、转换和装载工具:主要功能是从数据源中抽取数据后检验和整理数据,并根据数据仓库的设计要求重新组织和加工数据,装载到数据仓库的目标数据库中。 (3)数据建模工具:用于为数据仓库的原数据库和目标数据库建立信息模型。 (4)核心仓储:用于存储数据模型和原数据,其中元数据描述数据仓库中元数据和目标数据本身的信息,定义从原数据到目标数据的转换过程。 (5)数据仓库的目标数据库:存储经检验、整理、加工和重新组织后的数据。 (6)前端数据访问和分析工具:供业务人员分析和决策人员访问目标数据库中的数据,并进一步深入分析使用。 (7)数据仓库管理工具:为数据仓库的运行提供管理手段,包括安全管理和存储管理等。 数据仓库的体系结构如图1所示。 图1 数据仓库体系结构 可以看到,在一个数据仓库中,源数据来源与已有的生产系统,是操作型数据。提供源数据的数据源可以是各种数据库管理系统,或各种格式的数据文件或外部数据源。由于数据仓库是一种信息集成手段,因此在实际工程中,面对的数据源可能千差万别。只要能够为数据仓库所支持的决策和分析过程提供所需的信息,就可能成为数据仓库的数据源。因此,数据仓库需要有相应的工具从数据源中抽取数据。 数据进入数据仓库之前必须经过检验,以排除数据中可能隐藏的错误。为了满足决策支持和深入分析的需要,数据要经过特别整理、加工和重新组织,然后装载到一个或多个数据仓库的数据库中。所有这些工作都是数据抽取和转换工具完成的,数据仓库中装载数据的数据库即为数据仓库中的目标数据库。为了描述数据检验、整理和加工的需求与相应过程及步骤,必须有数据建模工具(Modeling Tools)。 随着企业业务的发展,数据仓库管理人员可以通过使用数据建模工具,根据企业决策和综合分析的需要,对数据的检验、整理、加工和重新组织的过程进行调整和优化,而有关描述则以数据模型和元数据的形式存放在核心仓储中。在数据仓库的日常运行过程中,需要不断监控数据仓库的状态,包括系统资源的使用情况、用户操作的合法性和数据的安全性等多个方面。为此,在数据仓库系统中专门有数据仓库管理工具负责向数据仓库管理员提供有关的管理功能。为了使数据仓库用户能有效的使用数据仓库中的信息,以实现深层次的综合分析和决策。数据仓库系统要为用户提供一整套数据访问和分析工具,这些工具不但要提供一般的数据访问功能,如查询、汇总和统计等,还要提供对数据的深入分析功能,如数据的比较、趋势分析和模式识别等。而数据仓库的数据访问和分析要在一定程度上面向企业的业务需求,所提供的数据是在业务上有意义的信息,而不只是通用的数据查询和操作功能。 二、数据仓库体系结构中的关键问题 数据仓库系统中有3个关键环节,即源数据的抽取和转换、在目标数据库中存储转换后的数据和为用户提供对目标数据库的透明访问。与此相对应,在数据仓库的设计过程中必须注意3个关键的问题,即选择数据仓库的目标数据库、数据抽取和转换工具及前端数据访问和分析工具。 1、数据仓库的目标数据库 作为数据仓库的目标数据库,既可以选用传统的关系型数据库管理系统,也可以选用专用的多维数据库管理系统。对于许多企业来说,并不要求一定选用专用多维OLAP数据库,以支持数据仓库的功能。在许多情况下,可以使用传统的关系型数据库管理系统和企业熟悉的通用数据访问工具来建立数据仓库的目标数据库。目前在市场上可以获得的各个主要的关系数据库管理系统都提供单向的数据复制功能,并能迅速响应大量用户的联机并发查询访问。它们通过使用标准的SQL接口,与标准的数据库查询工具和客户机/服务器工具实现透明的接口,而且多家主要厂商的关系型数据库管理系统的最新产品还能提供复杂查询和分析功能,能作为兼顾操作型数据处理环境和数据仓库应用的数据库引擎。 在某些规模非常大的决策支持应用场合下,专用的多维数据库具有一定的优势。例如,如果要分析一个大型的多维数据库,以发现市场营销的趋势。在这样应用环境下,专用多维数据库由于对多维OLAP的特殊支持,以及在数据库内部紧密集

文档评论(0)

153****9595 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档