数据挖掘的概念.docVIP

下载本文档

8
0
约1.57万字
约 16页
2017-11-15 发布于天津
举报
版权申诉

数据挖掘的概念.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘的概念

第1章数据挖掘的概念本章目标理解对大型的、复杂的和信息丰富的数据集进行分析的必要性。明确数据挖掘过程的目标和首要任务。描述数据挖掘技术的起源。认识数据挖掘过程所具有的迭代特点，说明数据挖掘的基本步骤。解释数据的质量对数据挖掘过程的影响。建立数据仓库和数据挖掘之间的联系。 1.1 概述现代科学和工程建立在用“首要原则模型(first-principle models)”来描述物理、生物和社会系统的基础上。这种方法从基础的科学模型入手，如牛顿运动定律或麦克斯韦的电磁公式，然后基于模型来建立机械工程或电子工程方面的各种应用。在这种方法中，用实验数据来验证基本的“首要原则模型”，以及对一些难以直接测量或者根本不可能直接测量的参数进行评估。但是在许多领域，基本的“首要原则模型”往往是未知的，或者研究的系统太复杂而难以进行数学定型，随着计算机的广泛应用，像这样的复杂系统生成了大量的数据。在没有“首要原则模型”时候，可以利用这些易得的可用数据，通过对系统变量之间可以利用的关系(即未知的输入输出相关性)进行评估来导出模型。这样，传统的建模及基于“首要原则模型”进行分析的方法与开发模型及直接对数据进行相应分析的方法之间普遍存在着范型变换。我们都逐渐习惯面对这样的一个事实——超量的数据充斥着我们的电脑、网络和生活，政府机构、科研机构和企业都投入大量的资源去收集和存储数据。实际上，这些数据中只有一小部分将会被用到，因为在很多情况下，要么数据量简直太大了，难于管理，要么就是数据结构太复杂，不能进行有效的分析。这种情况是怎么发生的呢？根本的原因是人们创建一个数据集时往往把精力都集中在如数据的存储效率的问题上，而没有去考虑数据最终是怎样使用和分析的。对大型的、复杂的、信息丰富的数据集的理解实际上是所有的商业、科学、工程领域的共同需要，在商务领域，公司和顾客的数据逐渐被认为是一种战略资产。在当今的竞争世界中，吸取隐藏在这些数据后面的有用知识并利用这些知识的能力变得愈加重要。运用基于计算机的方法，包括新技术，从而在数据中获得有用知识的整个过程，就叫做数据挖掘。数据挖掘是一个反复迭代的过程，在这个过程中，所取得的进步用“发现”来定义，而这种发现是通过自动或手工方法取得的。在对什么将会构成一个“有趣的”结果没有预定概念的初步探测性分析方案中，数据挖掘非常重要。它从大量的数据中搜寻有价值的、非同寻常的新信息，是人和计算机合力的结果；它在人类描述问题和目标的知识与计算机的搜索能力之间寻求平衡，以求获得最好的效果。在实践中，数据挖掘的两个基本目标往往是预测和描述。预测涉及到使用数据集中的一些变量或域来预测其他我们所关心变量的未知或未来的值；另一方面，描述关注的则是找出描述可由人类解释的数据模式。因此，可以把数据挖掘活动分成下述两类。 1) 预测性数据挖掘：生成已知数据集所描述的系统模型。 2) 描述性数据挖掘：在可用数据集的基础上生成新的、非同寻常的信息。在预测领域的后期，数据挖掘的目标是得出一种模型，以可执行码来表示。这种可执行码可以用于执行分类、预测、评估或者其他相似的任务。而描述性领域的后期，数据挖掘的目标是利用大型数据集中的未知模式和关系获得对所分析系统的理解。对特定的数据挖掘的应用，预测和描述的相对意义有相当大的变化。预测和描述的目标都是通过数据挖掘技术来实现的，本书将在后面介绍这些技术。数据挖掘的基本任务如下： 1. 分类——预测学习功能的发现，此功能将一个数据项分到几个预定义类中的一类。 2. 回归——预测学习功能的发现，此功能将一个数据项映射到一个真实值预测变量。 3. 聚类—— 一种普遍的描述性任务，寻求以确定有限的一组类别或类来描述数据。 4. 总结概括—— 一项附加的描述任务，寻找对数据集或子集的简单描述方法。 5. 关联建模——发现描述变量之间或者数据集或其一部分的特征值之间的重要的相关性的本地模型。 6. 变化和偏差检测——发现数据集中最重要的变化。针对复杂的和大型的数据集的数据挖掘任务，第4章给出了更加正式的带有图形化解释和说明性示例的方法。这里给出了当前介绍性的分类和定义，只是让读者对可使用数据挖掘技术来解决的问题和任务的广阔领域有一个初步感受。数据挖掘成功地达到预定目标，很大程度上依赖于设计者投入的精力、知识和创造力。从本质上讲，数据挖掘就像是解题：从问题的个别方面来看，结构并不复杂。但把它作为一个整体时，它们就能组成一个详尽的系统。当你试着去拆分这个系统时，你可能会遭遇失败，开始把各部分组合在一起又往往会为整个过程而苦恼。但是，一旦你知道怎么从部分着手，你就会发现其实问题并没有开始那么困难。同样的道理可以类推到数据挖掘中，开始的时候，数据挖掘过程的设计者可能对数据源知道的不多。如果他们知道很多，就很