数据挖掘导论 第8章 中文
需要一个框架来解释任何措施。 例如,如果我们的评价方法的价值,10,是好,公平还是穷? 统计提供了集群有效性的框架 聚类结果越“非典型”,它越可能代表数据中的有效结构 可以将由随机数据或聚类产生的索引的值与聚类结果的值进行比较。 如果索引的值不太可能,则集群结果是有效的 这些方法更复杂,更难理解。 为了比较两个不同的聚类分析集的结果,框架不太必要。 然而,存在两个指数值之间的差是否显着的问题 集群有效性的框架 例子 将随机数据中的SSE与0.005比较 直方图示出了在500个大小为100的随机数据点中的三个簇的SSE,其分布在对于x和y值的0.2-0.8的范围 统计框架SSE 以下两个数据集的K均值聚类的发生率和接近矩阵的相关性。 相关的统计框架 Corr = -0.9235 Corr = -0.5810 Cluster Cohesion: 测量集群中对象的相关程度 示例:SSE Cluster Separation: 衡量群集与其他群集的分离程度或分离程度 示例:平方误差 Cohesion内聚性通过内聚类平方和(SSE) Separation分离通过簇之间的平方和来测量 其中|Ci|是集群 i 的大小 内部方法:凝聚力和分离 内部方法:凝聚力和分离 示例: SSE BSS + WSS = constant 1 2 3 4 5 ? ? ? m1 m2 m K=2 clusters: K=1 cluster: 基于邻近图的方法也可以用于内聚和分离。 簇内聚力是簇内所有链路的权重的总和。 集群分离是集群中的节点和集群外部的节点之间的权重的总和。 内部方法:凝聚力和分离 cohesion separation 轮廓系数结合了内聚和分离的想法,但是对于单个点,以及聚类和聚类 对于个别点, i 计算a = i到其集群中的点的平均距离 计算b = min(i到另一个簇中点的平均距离) 如果a b,(或者如果a≠b,而不是通常情况,则s = b / a-1),则点的轮廓系数由下式给出: s = 1 – a/b if a b, (or s = b/a - 1 if a ? b, not the usual case) 通常在0和1之间。 越接近1越好。 可以计算群集或群集的平均轮廓宽度 内部方法:轮廓系数 群集有效性的外部度量:熵和纯度 “聚类结构的验证是聚类分析中最困难和最令人沮丧的部分。 没有在这个方向的强烈努力,聚类分析将仍然是一个黑色的艺术,只有那些有经验和伟大的勇气的真正信徒。” 聚类数据, Jain和多维数据集的算法 集群有效性的最终评论 分层聚类:MAX 嵌套集群 树状图 1 2 3 4 5 6 1 2 5 3 4 MAX的优点 原始的点 两个集群 不易受噪声和异常值影响 MAX的缺点 原始的点 两个集群 往往打破大集群 偏向球状星团 集群相似性:组平均 两个聚类的接近度是两个聚类中的点之间的成对接近的平均值 需要使用平均连接可扩展性,因为总接近度有利于大集群 1 2 3 4 5 分层聚类:组平均 嵌套集群 树状图 1 2 3 4 5 6 1 2 5 3 4 分层聚类:组平均 单链路和完全链路之间的妥协 优点 不易受噪声和异常值影响 缺点 偏向球状星团 群集相似性:Ward的方法 两个群集的相似性基于当两个群集合并时的平方误差的增加 与组平均值相似,如果点之间的距离是距离平方 不易受噪声和异常值影响 偏向球状星团 均值的分层模拟 可用于初始化K均值 分层聚类:比较 组平均 Ward的方法 1 2 3 4 5 6 1 2 5 3 4 MIN MAX 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 3 4 5 分层聚类:时间和空间要求 O(N2) 空间复杂度,因为它使用邻近矩阵。 N 是点数。 O(N3) 在许多情况下的时间复杂度 有N个步骤,并且在每个步骤,必须更新和搜索大小, N2 ,邻近矩阵 对于一些方法,时间复杂度可以减少到O(N2 log(N) ) 层次聚类:问题和局限性 一旦决定组合两个集群,就不能撤销 没有目标函数被直接最小化 不同的方案具有以下一个或多个问题: 对噪声和异常值的敏感性 难以处理不同大小的簇和凸形 分离大集群 MST:分裂层次聚类 构建MST(最小生成树) 从包含任何点的树开始 在连续的步骤中,寻找最接近的点对(p, q) ,使得一个点(p)在当前树中,而另一个(q)不在 将q添加到树中,并在p和q之间放置一条边 MST:分裂层次聚类 使用MST构建集群的层次结构 DBSCAN DBSCAN是基于密度的算法。 密度=指定半径内的点数(E
您可能关注的文档
- 实验5(12,13,14) 图形界面——必做.doc
- 工作总结新年计划PPT.pptx
- 小清新水彩企业简介公司介绍项目融资PPT.pptx
- 广东省深圳市宝安区上寮学校七年级英语下册 Units 7-8综合测试题.doc
- 彩色微立体商务公司简介融资计划PPT模板.pptx
- 必修三unit1Winter carnival in Quebec.ppt
- 必修三 Unit 1 language points in reading.ppt
- 性格和领导力发展Character and Leadership Development.ppt
- 掌握UCP600的单据审核标准.ppt
- 敦煌网分享PANTONE色卡:潘通色卡号.docx
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
原创力文档

文档评论(0)