DATA MINING(CH)培训讲义.pptVIP

  • 2
  • 0
  • 约1.2万字
  • 约 49页
  • 2017-02-07 发布于江苏
  • 举报
第3章 聚类分析 《数据挖掘与知识发现》(第2版) 吉林大学计算机科学与技术学院 李雄飞 聚类分析 聚类是对物理的或抽象的对象集合分组的过程。本章主要介绍如下几个方面的内容: 聚类算法的特点 聚类分析中的数据类型 基于划分的方法 基于层次的方法 基于密度的方法 基于网格的方法 基于模型的方法 孤立点分析 引言 聚类(Clustering) 是对物理的或抽象的对象集合分组的过程 聚类生成的组称为簇(Cluster),簇是数据对象的集合。 簇内部的任意两个对象之间具有较高的相似度 属于不同簇的两个对象间具有较高的相异度 相异度可以根据描述对象的属性值计算,最常用的度量指标是距离。 聚类最初来自数学、统计学和数值分析;机器学习领域把聚类描述成隐含模式,发现簇的过程是无监督学习;聚类是模式识别的重要手段。 聚类的特点 用少量的簇描述大量数据的特征 数据简洁 丢失精细部分 聚类在数据挖掘实践中的应用 数据预处理 科学数据探索 信息获取与文本挖掘 空间数据库应用 CRM 引言 统计学:聚类分析是通过数据建模简化数据的一种方法。 包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。 机器学习:簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。 与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类

文档评论(0)

1亿VIP精品文档

相关文档