第五章 数据挖掘程.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘 数据仓库与数据挖掘 第一章 数据仓库与数据挖掘概述 第二章 数据仓库的分析 第三章 数据仓库的设计与实施 第四章 信息分析的基本技术 第五章 数据挖掘过程 第六章 数据挖掘基本算法 第七章 非结构化数据挖掘 第八章 离群数据挖掘 第九章 数据挖掘语言与工具的选择 第十章 知识管理与知识管理系统 第五章 数据挖掘过程 5.1 数据挖掘的方法与基本流程 5.2 数据预处理 5.3 确定主题和定义数据挖掘任务 5.4 数据挖掘的模型建立与理解 5.5 预测 5.6 数据挖掘中常见的一些问题(自学) 5.1 数据挖掘的方法与基本流程 5.1.1 数据挖掘的体系结构 5.1.2 数据挖掘的过程模型 5.1.3 数据挖掘的基本流程 5.1.1 数据挖掘的体系结构 数据挖掘系统由各类数据库、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块组成,这些模块的有机组成就构成了数据挖掘系统的体系结构。 5.1.2 数据挖掘的过程模型 (1) Usama M.Fayyad总结提出的过程模型 (2) 遵守数据挖掘特别兴趣小组提出的CRISP-DM标准的过程模型 (1) Fayyad数据挖掘模型 Fayyad数据挖掘模型将数据库中的知识发现看作是一个多阶段的处理过程,它从数据集中识别出以模式来表示的知识,在整个知识发现的过程中包括很多处理步骤,各步骤之间相互影响,反复调整,形成一种螺旋式的上升过程。 (1) Fayyad数据挖掘模型 (1) Fayyad数据挖掘模型 Fayyad过程模型是一个偏技术的模型,该模型在实际应用中存在以下两个问题: (1)为什么选择这些数据?Fayyad过程模型忽略了具体业务问题的确定。这也是确定选择哪些数据的关键所在。 (2)模型怎样使用?挖掘出的模型需要返回到操作型环境中进行应用。因此,需要构成一个从操作型环境到分析型环境再到操作型环境的封闭的信息流。 (2) CRISP-DM模型 CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)注重数据挖掘技术的应用,解决了Fayyad模型存在的两个问题。 CRISP-DM过程模型从商业的角度给出对数据挖掘方法的理解。目前数据挖掘系统的研制和开发大都遵循CRISP-DM标准,将典型的挖掘和模型的部署紧密结合。 (2) CRISP-DM模型 CRISP-DM模型过程的基本步骤包括:业务理解、数据理解、数据准备、建立模型、模型评价、模型实施。 (2) CRISP-DM模型 CRISP-DM模型的各个阶段任务。 (1)业务理解 (Business Understanding) 最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。 确定业务目标——背景、业务目标、业务成功标准 评估环境——资源清单、需求、假设、约束、风险和所有费用、术语表、成本和收益 确定数据挖掘目标——数据挖掘目标、数据挖掘成功标准 产生项目计划——项目计划、工具和技术的初步评价 (2) CRISP-DM模型 (2)数据理解 (Data Understanding) 数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。 收集原始数据——原始数据收集报告 描述数据——数据描述报告 探测数据——数据探测报告 (2) CRISP-DM模型 (3)数据准备 (Data Preparation) 数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有可能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。 数据选择——选择与排除数据的基本原则 数据清理——数据清洗报告 数据构建——导出属性和生成记录 数据集成——合并数据 数据格式化——格式化的数据 (2) CRISP-DM模型 (4)建立模型(Modeling) 选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。 选择建模技术——建模技术及建模假定 产生测试设计——测试实验的设计 建立模型——参数设定、模型、模型描述 评估模型——模型评价、修改和参数设定 (2) CRISP-DM模型 (5)评价(Evaluation) 已经从数据分析的角度建立了高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。 这个阶段的关键目的是确定是否有

文档评论(0)

jyf123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6153235235000003

1亿VIP精品文档

相关文档