- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 数据挖掘过程
主要内容
1. 数据挖掘的基本流程是怎样的?
2. 如何确定和定义数据挖掘任务?
3. 什么是数据预处理? (重点)
4. 如何建立和理解数据挖掘模型?
5. 数据挖掘中有哪些常见的问题?
2014-2-10 1
1.数据挖掘的基本流程是怎样的?
2014-2-10 2
企业挖掘器
数据挖掘的方法论——SEMMA
SAS的SEMMA方法,即抽样(Sample ),
探索(Explore ),修改(Modify ),模型
(Model ),评价(Assess )
2014-2-10 3
数据挖掘过程中的任务
数据挖掘过程模型是为应用数据挖掘技术提
供一种系统化的技术实施方法。由于数据挖
掘的应用领域极其广泛、应用问题的类型也
较多,因此,为了成功的应用数据挖掘技
术,围绕数据挖掘过程需要涉及:
问题的理解
数据的理解、收集和准备
建立数据挖掘模型
评价所建的模型
应用所建的模型等
2014-2-10 4
数据挖掘的全过程
2014-2-10 5
数据挖掘的基本流程
2014-2-10 6
数据挖掘的方法论——CRISP -DM
CRISP-DM (Cross-Industry Standard Process-Data Mining)
CRISP是当今数据挖掘业界通用流行的标准之一
它强调数据挖掘在商业中的应用,解决商业中存在
的问题,而不是把数据挖掘局限在研究领域
商业理解 (Business Understanding )
数据理解 (Data Understanding)
数据准备 (Data Preparation)
建立模型 (Modeling)
模型评估 (Evaluation)
模型发布 (Deployment)
2014-2-10 7
2.如何确定和定义数据挖掘任务?
2014-2-10 8
对数据挖掘查询的说明
我想挖掘什么数据集
数据挖掘研究的范围
想挖掘什么类型的知识
什么背景知识在这里可能有用
哪些度量可以用来评估模式的兴趣度
了解研究主题的局限性
选择待完成的良好的研究主题
确定待研究的合适的数据元素,决定如何进行数据抽
样
2014-2-10 9
减少查找的代价
淘汰那些不参与查找的因素,来减少数据库
规模
运用随机抽取数据样本的查找规则系统
运用附加信息
文档评论(0)