数据仓库与数据挖掘课件 第三章 聚类分析.ppt

数据仓库与数据挖掘课件 第三章 聚类分析.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘课件 第三章 聚类分析

第3章 聚类分析 《数据挖掘与知识发现》(第2版) 吉林大学计算机科学与技术学院 李雄飞 聚类分析 聚类是对物理的或抽象的对象集合分组的过程。本章主要介绍如下几个方面的内容: 聚类算法的特点 聚类分析中的数据类型 基于划分的方法 基于层次的方法 基于密度的方法 基于网格的方法 基于模型的方法 孤立点分析 引言 聚类(Clustering) 是对物理的或抽象的对象集合分组的过程 聚类生成的组称为簇(Cluster),簇是数据对象的集合。簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象间具有较高的相异度。 相异度可以根据描述对象的属性值计算,对象间的距离是最常采用的度量指标。 聚类最初来自数学、统计学和数值分析;机器学习领域把聚类描述成隐含模式,发现簇的过程是无监督学习;聚类是模式识别的重要手段。 聚类的特点 用少量的簇描述大量数据的特征 数据简洁 丢失精细部分 聚类在数据挖掘实践中的应用 数据预处理 科学数据探索 信息获取与文本挖掘 空间数据库应用 CRM 引言 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。 包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。 从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。 与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。 就数据挖掘功能而言,聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。 聚类分析还可以作为其他数据挖掘任务(如分类、关联规则)的预处理步骤。 引言 聚类算法的特征 处理不同类型属性的能力 对大型数据集的可扩展性 处理高维数据的能力 发现任意形状簇的能力 处理孤立点或“噪声”数据的能力 对“噪声”数据具有较低的敏感性 合理地发现孤立点 对数据顺序的不敏感性 对先验知识和用户自定义参数的依赖性 聚类结果的可解释性和实用性 基于约束的聚类 引言 聚类算法分类 基于划分的方法 k-means算法 基于密度的算法 基于层次的方法 汇聚算法 分裂算法 基于网格的方法 非数据与数值属性同时出现的方法 基于约束的方法 运用机器学习技术的方法。 梯度下降法和人工神经网络法 进化模型 有扩展性的算法 面向高维数据集的算法 数据类型和数据结构 数据类型 区间标度型:用线性标度描述的连续度量。(如,重量、高度、经纬度坐标、温度等) 布尔型:若两个状态同等重要,称为对称的,否则是不对称的。 标称型:有若干个离散的取值。 序数型:取离散的序数值,序列排序是有意义的。 比例标度型:在非线性标度上取正的度量值。 数据结构 计算对象之间的距离 距离函数 距离函数‖?‖应满足的条件是: (1) ‖xi–xj ‖= 0,当且仅当 xi = xj (2) 非负性:‖xi–xj ‖≥0 (3) 对称性:‖xi–xj ‖=‖xj–xi ‖ (4) 三角不等式: ‖xi–xk ‖≤‖xi–xj ‖+‖xj –xk ‖ 计算对象之间的距离 设两个对象的p维向量分别表示为 xi =(xi1,xi2,…,xip)T 和 xj=(xj1,xj2,…,xjp)T , 有多种形式的距离度量可以采用。如, 闵可夫斯基(Minkowski)距离 曼哈坦(Manhattan)距离 欧几里得(Euclidean)距离 切比雪夫(Chebyshev)距离 马哈拉诺比斯(Mahalanobis)距离 计算对象之间的距离 闵可夫斯基(Minkowski)距离: 其中q?[1, ?]。 曼哈坦(Manhattan)距离: 欧几里德(Euclidean)距离: 切比雪夫(Chebyshev)距离: 马哈拉诺比斯(Mahalanobis)距离: 其中A为正定矩阵。 计算对象之间的距离 令对象的维数p=2,在二维空间中考察到原点距离为常数的所有点形成的形状。即,考察集合{x| ||x||=c}的形状。 菱形:曼哈坦距离; 圆形:欧几里德距离; 方形:切比雪夫距离。 基于划分的聚类方法 已知由n个对象(或元组)构成的数据库,对其采用目标函数最小化的策略,通过迭代把数据分成k个划分块,每个划分块为一个簇(cluster),这就是划分方法。 划分方法满

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档