数据挖掘基础及其应用 课件 第10章 聚类分析Ⅱ分层聚类与密度聚类.pptx

数据挖掘基础及其应用 课件 第10章 聚类分析Ⅱ分层聚类与密度聚类.pptx

第10章 聚类分析Ⅱ:分层聚类与密度聚类; 10.1 引 言;   聚类分析的优点:   (1)简单、直观;   (2)主要应用于探索性的研究,其结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续分析;   (3)不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;   (4)聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。;   聚类分析的缺点:   (1)不能自动发现分成多少个类———属于无监督分析方法;   (2)期望能很清楚地找到大致相等的类或细分是不现实的;   (3)对样本聚类时,变量之间的关系需要研究者决定;   (4)不会自动给出一个最佳的聚类结果。;   问题1:K-均值算法有哪些典型的缺陷? 是否存在有效的解决方法?   提示:噪声敏感、非凸结构,如第9章表9 3所示。   本章阐述的分层聚类与基于密度的算法可以克服 K-均值算法的缺陷,其中分层聚类主要解决初始值选择与敏感性高的问题,而密度聚 类 主 要 解 决 非 凸 结 构 的 问 题,如 表 10-1所示。;; 10.2 分 层 聚 类; 10.2.1 算法流程   分层聚类法首先将每个数据对象看成一个类,计算类之间的距离(如何计算类之间的距离将在10.2.2节中进行详细描述),每次将距离最近的数据对象合并成一个类。然

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档