CHAPTER10-聚类:基本和方法精编.pptVIP

  • 3
  • 0
  • 约 100页
  • 2016-08-05 发布于湖北
  • 举报
费高雷 通信与信息工程学院 2015年春季 第10章 聚类分析:基本概念和方法 2 第10章:聚类分析:基本概念和方法 聚类分析 划分方法 层次方法 基于密度的方法 基于网格的方法 聚类评估 小结 什么是聚类分析? 聚类: 数据对象的集合/簇 (cluster) 同一簇中的对象彼此相似 不同簇中的对象彼此相异 聚类分析 将数据对象分组成为多个类或簇 聚类是无监督的分类:没有预先定义的类 典型应用 作为洞察数据内部分布的独一无二的工具 作为其它算法的预处理步骤 聚类的一般应用 模式识别 空间数据分析 聚类产生GIS(地理信息系统)的专题地图thematic maps 在空间数据挖掘中检测空间聚类并解释它们 图象处理 经济科学 (特别是市场研究) WWW 文本分类 Web日志数据聚类,发现类似访问模式群 聚类应用的例子 市场营销: 帮助市场营销者发现他们的基本顾客的不同组群,然后利用这一知识制定有针对性的营销计划 国土利用 在地球观测数据库中识别类似的国土使用区域 保险 对汽车保险持有者的分组 城市规划 根据房子的类型,价值,和地理位置对一个城市中房屋的分组 地震研究 应当将观测到的地震震中沿大陆板块断裂进行聚类 聚类分析的主要步骤 特征选择 选择与任务密切相关的信息 尽可能减少信息冗余 相似度评价 两个特征向量的相似性 聚类的评价准则 通过代价函数或某些规则 聚类算法 k-均值、极大似然、… 结果验证 验证聚类结果的有效性 结果解释 根据实际应用解释聚类结果 6 什么是好的聚类方法? 一个好的聚类方法应当产生高质量的聚类 类内相似性高 类间相似性低 聚类结果的质量依赖于方法所使用的相似性度量和它的实现. 聚类方法的质量也用它发现某些或全部隐藏的模式的能力来度量 数据挖掘对聚类的要求 可伸缩性 有的算法当数据对象少于200时处理很好, 但对大量数据对象偏差较大 大型数据库包含数百万个对象 处理不同属性类型的能力 许多算法专门用于数值类型的数据 实际应用涉及不同数据类型(数值和分类数据混合) 发现任意形状的聚类 基于距离的聚类趋向于发现具有相近尺度和密度的球状簇 一个簇可能是任意形状的 数据挖掘对聚类的要求(续) 用于决定输入参数的领域知识最小化 许多聚类算法要求用户输入一定的参数, 如希望产生的簇的数目。 参数难以确定,增加用户负担,使聚类质量难以控制 处理噪声数据和孤立点的能力 一些聚类算法对于噪音数据敏感, 可能导致低质量的聚类结果 现实世界中的数据库大都包含了孤立点, 空缺, 或者错误的数据 对于输入记录的顺序不敏感 一些聚类算法对于输入数据的顺序是敏感的, 以不同的次序输入会导致不同的聚类 数据挖掘对聚类的要求(续) 高维性(high dimensionality) 许多聚类算法擅长处理低维的数据, 可能只涉及两到三维 数据库或者数据仓库可能包含若干维或者属性, 数据可能非常稀疏, 而且高度偏斜 整合用户指定的约束 现实世界的应用可能需要在各种约束条件下进行聚类 要找到既满足特定的约束, 又具有良好聚类特性的数据分组是一项具有挑战性的任务 可解释性和可用性 用户希望聚类结果是可解释的, 可理解的, 和可用的 聚类可能需要和特定的语义解释和应用相联系 聚类分析的方法 划分方法: Construct various partitions and then evaluate them by some criterion, e.g., minimizing the sum of square errors Typical methods: k-means, k-medoids, CLARANS 层次方法: Create a hierarchical decomposition of the set of data (or objects) using some criterion Typical methods: Diana, Agnes, BIRCH, CAMELEON 基于密度的方法: Based on connectivity and density functions Typical methods: DBSACN, OPTICS, DenClue 基于网格的方法: based on a multiple-level granularity structure Typical methods: STING, WaveCluster, CLIQUE 11 聚类分析的方法 基于模型的方法: A model is hypothesized for each of the clusters and tries to find the best fit of that

文档评论(0)

1亿VIP精品文档

相关文档