- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘课件 第十二章 数据挖掘工具与产品
第12章 数据挖掘工具与产品 《数据挖掘与知识发现》(第2版) 吉林大学计算机科学与技术学院 李雄飞 数据挖掘工具与产品 随着数据挖掘研究工作的深入,相关工具盒产品不断涌现,同时逐渐形成相关技术规范。本章介绍如下几个方面的内容: 数据挖掘标准 数据挖掘工具 数据挖掘产品 数据挖掘标准化概述 开发数据挖掘软件面临的问题: 1.各模型和技术难于集成 数据挖掘技术是面向问题的,不同的问题往往采用不同的模型和技术,且彼此相互独立。开发商们提供的工具之间难以交互,不容易集成到同一个应用中。 2.缺少简明精确的问题描述方法 语义通常是由实现方法决定的,很难用统一的原语言描述数据挖掘问题。 3.挖掘软件仅提供孤立的知识发现功能,难以嵌入大型应用 大多数数据挖掘工具采用独立的数据挖掘模型,不能同操作环境中的语言模型无缝集成。 4.缺少与数据库系统耦合的通用API或原语 数据挖掘引擎和数据库系统是松散耦合的,缺乏统一的对数据库系统的高性能访问接口,也没有支持与数据库紧密耦合的原语。 数据挖掘标准划分为四类: 过程标准、接口标准、语言标准、网络标准。 数据挖掘过程标准 需求: 数据挖掘是分步骤、多角度数据分析和知识获取过程。为使数据挖掘过程与具体应用开发过程相结合,成为商业开发的关键步骤,需要建立统一的过程标准。 作用: 形成有效记录工作经验的统一体系 加强项目计划和项目管理 有助于新手了解数据挖掘的整个工作流程 有利于详细规划和设计 控制和降低项目的成本 主要标准: 1996年的Fayyad标准 1998年的Cabena标准 1999年的CRISP-DM标准 2001年的Cios标准以及SAS的SEMMA标准 其中,CRISP-DM应用范围最广的、是事实上的工业标准。 数据挖掘过程标准 CRISP-DM(Cross Industry Standard Process for Data Mining)是一个分级的过程模型。 1.理解商业背景:确定商业目标,评估形势,明确目标并建立项目计划。 2.理解原始数据:收集并描述原始数据,检查和确认数据的质量。 3.数据准备:选择、清理数据,数据综合并做数据标准化。 4.建立数据挖掘模型:选择建模算法,产生测试模型,建立模型和评估模型。 5.评估:评估数据挖掘的结果,监视数据挖掘过程并确定下一步工作。 6.部署:制定数据挖掘实施计划,制定监控计划实施的方法,完成最终报告,最后回顾整个工程。 数据挖掘过程标准 数据挖掘接口标准 数据挖掘接口标准: 不需大量修改代码,各数据挖掘工具均可直接为终端用户提供服务,使不同开发商的数据挖掘工具可以互连。 主要包括: SQL/MM(SQL/Multimedia) JSR-073/JDM(Java Specification Request 073 / Java Data Mining) SQL/MM标准: SQL/MM是一个ISO/IEC的国际化标准项目,主要用于定义纯文本数据、空间数据和静态图像数据和数据挖掘的标准。该标准的第六部分用来解决数据挖掘问题,为数据挖掘模型的生成、测试以及应用等工作定义了标准的SQL API。 支持分类、聚类、回归和关联规则 允许用户自定义数据类型和方法 数据挖掘接口标准 JDM主要由三个结构组件构成: (1)应用程序编程接口 终端用户的可视化部件需要通过此接口调用数据挖掘引擎(DME)提供的数据挖掘服务。应用程序开发者仅需要掌握此接口即可工作。 (2)数据挖掘引擎(DME) 提供数据挖掘服务的基础架构,终端用户通过接口调用它提供的数据挖掘服务。 (3)元数据仓库 存储底层的数据挖掘对象,可以是基于CWM框架。 数据挖掘语言标准 借鉴SQL制定数据挖掘语言标准,支持统一的和交互的数据挖掘,便于灵活有效地发现知识,实现数据挖掘系统的标准化。 按数据挖掘语言的功能和侧重点分类: 数据挖掘查询语言 数据挖掘定义语言 通用数据挖掘语言 一、数据挖掘查询语言 多数采用类似SQL语言的语法,提供一些数据挖掘原语。用户通过原语制定数据挖掘任务。 数据挖掘原语通常从五个方面描述问题: 待挖掘的数据 挖掘知识的类型 背景知识 兴趣度度量 模式的表示与可视化 数据挖掘语言标准 典型代表: 韩家炜的面向文本数据挖掘查询语言DMQL Imielinski和Vermani的数据挖掘系统语言MSQL Meo,Psalia和Ceri的关联规则查询语言Mine Rule 二、数据挖掘定义语言 1. 预言模型标记语言(PMML,Predictive Model
文档评论(0)