数据挖掘完整版本.docxVIP

  • 12
  • 0
  • 约1.04万字
  • 约 13页
  • 2024-06-01 发布于北京
  • 举报

数据挖掘概述

数据挖掘

定义:通过自动或半自动化的工具对大量的数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律。

——数据挖掘是一门技能,不是一种现成的产品。

数据挖掘能做什么

6种方法:分类(classification)、估计(estimation)、预测(prediction)、组合或关联法则(affinitygroupingorassociationrules)、聚类(clustering)、描述与可视化(descriptionandvisualization)

前三种方法属于直接的数据挖掘,目标是应用可得到的数据建立模型,用其他可得到的数据来描述我们感兴趣某一变量。

后三种方法属于间接的数据挖掘,没有单一的目标变量,目标是在所有变量中发现某些联系。

分类:其特点是先对不同的类别加以定义,并由预先分类的样本构成训练集。任务是建立一个模型并应用这一模型对未分类数据进行分类。分类处理的是离散的结果。

估计处理的是连续的结果。

组合法的任务是确认哪些事物会一起出现。

聚类的任务是将相似的事物分成一类,差异较大的事物分在不同的类中。聚类与分类的区别是聚类并不依赖于事先确定好的组别。

技术层面的数据挖掘

算法与技巧

数据

建模实践

二、数据挖掘方法论:互动循环系统

数据挖掘的两种类型

一种是自上而下的方法,称之为有监督的数据挖掘方法,当明确知道要搜索的目标时,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档