数据挖掘第七章聚类分析.ppt

下载文档 降价啦

40
0
约2.13万字
约 141页
2017-06-23 发布于湖北
举报
保障服务

数据挖掘第七章聚类分析.ppt

数据挖掘第七章聚类分析

Chapter 7. 聚类分析聚类分析概述聚类分析的数据类型主要聚类分析方法分类划分方法（Partitioning Methods）分层方法基于密度的方法基于网格的方法基于模型（Model-Based）的聚类方法 6.1 聚类分析概述簇（Cluster）:一个数据对象的集合在同一个类中，对象之间具有相似性；不同类的对象之间是相异的。聚类分析(群分析、簇群分析) 把一个给定的数据对象集合分成不同的簇；所谓聚类就是按照事物的某些属性,把事物聚集成类, 使类间的相似性尽可能的小,类内相似性尽量大的过程聚类是一种无监督分类法: 没有预先指定的类别；典型的应用作为一个独立的分析工具，用于了解数据的分布；作为其它算法的一个数据预处理步骤； ---异常分析应用聚类分析的例子市场销售: 帮助市场人员发现客户中的不同群体，然后用这些知识来开展一个目标明确的市场计划；土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区；保险: 对购买了汽车保险的客户，标识那些有较高平均赔偿成本的客户；城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅；地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类；生物方面，聚类分析可以用来对动物或植物分类，或根据基因功能对其进行分类以获得对人群中所固有的结构更深入的了解。什么是一个好的聚类方法? 一个好的聚类方法要能产生高质量的聚类结果——簇，这些簇要具备以下两个特点：高的簇内相似性低的簇间相似性聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现；聚类方法的好坏还取决于该方法是能发现某些还是所有的隐含模式；可伸缩性能够处理不同类型的属性能发现任意形状的簇在决定输入参数的时候，尽量不需要特定的领域知识能够处理噪声和异常对输入数据对象的顺序不敏感能处理高维数据能产生一个好的、能满足用户指定约束的聚类结果结果是可解释的、可理解的和可用的 6.2 聚类分析算法分类分裂法层次法基于密度类方法基于网格类方法基于模型类方法 1、分裂法（partitioning method）给定一个有N个元组或者记录的数据集，分裂法将构造K个分组，每个分组就代表一个聚类，KN ,而且这K个分组满足下列几个条件（1）每个分组至少包含一个数据记录（2）每一个数据记录属于且仅属于一个分组（在某些模糊聚类算法中可以放宽）对于一个给定的K，算法首先给出一个初始的分组方法法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好。好的标准就是：同组记录越来越近，不同组记录越来越好使用这个算法的基本思想有： K-MEANS算法、KMEDOID算法、CLARANS算法 2、层次法(hierarchical method) 层次方法对给定数据对象集合进行层次的分解。凝聚----自底向上分裂-----自顶向下的缺点:一旦一个步骤（合并或分裂）完成，它就不能被撤消，因此而不能更正错误的决定。代表算法有： BIRCH算法(利用层次方法的平衡迭代归约和聚类）、 CURE算法（利用代表点聚类） 3、基于密度的方法(density-based method) 它与其他方法的根本区别：不是基于各种各样的距离的、而是基于密度的，这样就能克服基于距离的算法只能发现“类圆形”聚类的缺点。其主要思想是：只要临近区域的密度超过某个阈值，就继续聚类。这样的方法可以用来过滤“噪声”孤立点数据，发现任意形状的簇。代表算法有： DBSCAN算法（基于高密度连接区域的密度聚类方法） OPTICS算法、DENCLUE算法 4、基于网格的方法(grid-based method) 基于网格的聚类方法采用一个网格数据结构。把对象空间量化为有限数目的单元，形成了一个网格结构。优点:处理速度很快，其处理时间独立于数据对象的数目，只与量化空间中每一维的单元数目有关。代表算法有： STING算法（统计信息风格）、CLIQUE算法、WAVE-CLUSTER算法 5、基于模型的方法(model-based method) 给每个聚类假设一个模型（如密度分布

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘第七章聚类分析.ppt