- 5
- 0
- 约8.52千字
- 约 10页
- 2017-01-15 发布于重庆
- 举报
第2章 数据挖掘方法和最佳实践
数据挖掘的方法越严格就越复杂,如果缺少其中一个步骤,数据挖掘工作就可能失败。因此,掌握良好的方法论是学习数据挖掘的关键,根据作者多年数据挖掘经验,在国内外先进经验的基础上,发展了一套有效的习惯性方法。本章将把这些实践活动总结出的有序步骤,作为数据挖掘的方法论来展示。数据挖掘是一个自然的迭代过程,有些过程需要多次重复进行,完全跳过某个过程不一定恰当。
2.1为什么需要方法
数据挖掘是从过去获取知识用于未来更好决策的一种方法。本章介绍的实践方法主要为了避免知识获取过程中出现以下两个不希望的结果:
获取不真实的知识;
获取真实但无用的知识。
就像水手要学会绕开海上的漩涡和海中的暗礁等危险一样,数据挖掘人员需要了解如何避免这些常见的陷阱。
2.1.1获取不真实的知识
获取不真实的知识比获取无用的知识更加危险,因为人们可能依据这些不正确的信息做出重要的决策;如果依据不正确的信息进行医学决策,那将是致命的。数据挖掘的结果似乎通常是可靠的,因为从表面上看,是基于科学的方式而获取的。这种可靠性外观很具有欺骗性:因为数据本身可能是不正确的,或者与当时的问题没有关联;发现的模式可能只反映了过去的决策,也可能根本什么也没反映;一些数据转换(如汇总)可能破坏或者隐藏了一些重要信息。下面讨论可能导致错误结论的常见问题。
1. 模式可能不代表任何底层规划
人类常常根据一些模式来
原创力文档

文档评论(0)