- 1、本文档共104页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘导论-ch8要点
需要一个框架来解释任何措施。 例如,如果我们的评价方法的价值,10,是好,公平还是穷? 统计提供了集群有效性的框架 聚类结果越“非典型”,它越可能代表数据中的有效结构 可以将由随机数据或聚类产生的索引的值与聚类结果的值进行比较。 如果索引的值不太可能,则集群结果是有效的 这些方法更复杂,更难理解。 为了比较两个不同的聚类分析集的结果,框架不太必要。 然而,存在两个指数值之间的差是否显着的问题 集群有效性的框架 例子 将随机数据中的SSE与0.005比较 直方图示出了在500个大小为100的随机数据点中的三个簇的SSE,其分布在对于x和y值的0.2-0.8的范围 统计框架SSE 以下两个数据集的K均值聚类的发生率和接近矩阵的相关性。 相关的统计框架 Corr = -0.9235 Corr = -0.5810 Cluster Cohesion: 测量集群中对象的相关程度 示例:SSE Cluster Separation: 衡量群集与其他群集的分离程度或分离程度 示例:平方误差 Cohesion内聚性通过内聚类平方和(SSE) Separation分离通过簇之间的平方和来测量 其中|Ci|是集群 i 的大小 内部方法:凝聚力和分离 内部方法:凝聚力和分离 示例: SSE BSS + WSS = constant 1 2 3 4 5 ? ? ? m1 m2 m K=2 clusters: K=1 cluster: 基于邻近图的方法也可以用于内聚和分离。 簇内聚力是簇内所有链路的权重的总和。 集群分离是集群中的节点和集群外部的节点之间的权重的总和。 内部方法:凝聚力和分离 cohesion separation 轮廓系数结合了内聚和分离的想法,但是对于单个点,以及聚类和聚类 对于个别点, i 计算a = i到其集群中的点的平均距离 计算b = min(i到另一个簇中点的平均距离) 如果a b,(或者如果a≠b,而不是通常情况,则s = b / a-1),则点的轮廓系数由下式给出: s = 1 – a/b if a b, (or s = b/a - 1 if a ? b, not the usual case) 通常在0和1之间。 越接近1越好。 可以计算群集或群集的平均轮廓宽度 内部方法:轮廓系数 群集有效性的外部度量:熵和纯度 “聚类结构的验证是聚类分析中最困难和最令人沮丧的部分。 没有在这个方向的强烈努力,聚类分析将仍然是一个黑色的艺术,只有那些有经验和伟大的勇气的真正信徒。” 聚类数据, Jain和多维数据集的算法 集群有效性的最终评论 分层聚类:MAX 嵌套集群 树状图 1 2 3 4 5 6 1 2 5 3 4 MAX的优点 原始的点 两个集群 不易受噪声和异常值影响 MAX的缺点 原始的点 两个集群 往往打破大集群 偏向球状星团 集群相似性:组平均 两个聚类的接近度是两个聚类中的点之间的成对接近的平均值 需要使用平均连接可扩展性,因为总接近度有利于大集群 1 2 3 4 5 分层聚类:组平均 嵌套集群 树状图 1 2 3 4 5 6 1 2 5 3 4 分层聚类:组平均 单链路和完全链路之间的妥协 优点 不易受噪声和异常值影响 缺点 偏向球状星团 群集相似性:Ward的方法 两个群集的相似性基于当两个群集合并时的平方误差的增加 与组平均值相似,如果点之间的距离是距离平方 不易受噪声和异常值影响 偏向球状星团 均值的分层模拟 可用于初始化K均值 分层聚类:比较 组平均 Ward的方法 1 2 3 4 5 6 1 2 5 3 4 MIN MAX 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 5 3 4 1 2 3 4 5 6 1 2 3 4 5 分层聚类:时间和空间要求 O(N2) 空间复杂度,因为它使用邻近矩阵。 N 是点数。 O(N3) 在许多情况下的时间复杂度 有N个步骤,并且在每个步骤,必须更新和搜索大小, N2 ,邻近矩阵 对于一些方法,时间复杂度可以减少到O(N2 log(N) ) 层次聚类:问题和局限性 一旦决定组合两个集群,就不能撤销 没有目标函数被直接最小化 不同的方案具有以下一个或多个问题: 对噪声和异常值的敏感性 难以处理不同大小的簇和凸形 分离大集群 MST:分裂层次聚类 构建MST(最小生成树) 从包含任何点的树开始 在连续的步骤中,寻找最接近的点对(p, q) ,使得一个点(p)在当前树中,而另一个(q)不在 将q添加到树中,并在p和q之间放置一条边 MST:分裂层次聚类 使用MST构建集群的层次结构 DBSCAN DBSCAN是基于密度的算法。 密度=指定半径内的点数(E
您可能关注的文档
- 班海宣传ppt很棒的海蓝色模板.pptx
- 班级祝福语.doc
- 班级微信群如何管理.ppt
- 班干部竞选.ppt
- 数据中心机房设计方案.doc
- 班会为什么要读书.pptx
- 班级读书会和聊书.ppt
- 班组总包协议.doc
- 现代气候学气候变化_2016.ppt
- 班组卓越绩效管理培训分享.ppt
- 专题06 经济体制(我国的社会主义市场经济体制)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题11 世界多极化与经济全球化-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 专题03 经济发展与社会进步-5年(2020-2024)高考1年模拟政治真题分类汇编(浙江专用)(解析版).docx
- 专题09 文化传承与文化创新-5年(2020-2024)高考1年模拟政治真题分类汇编(北京专用)(原卷版).docx
- 5年(2020-2024)高考政治真题分类汇编专题08 社会进步(我国的个人收入分配与社会保障)(原卷版).docx
- 专题07 探索世界与把握规律-5年(2020-2024)高考1年模拟政治真题分类汇编(解析版).docx
- 5年(2020-2024)高考政治真题分类汇编专题06 经济体制(我国的社会主义市场经济体制)(原卷版).docx
- 专题11 全面依法治国(治国理政的基本方式、法治中国建设、全面推进依法治国的基本要求)-五年(2020-2024)高考政治真题分类汇编(解析版).docx
- 专题17 区域联系与区域协调发展-【好题汇编】十年(2015-2024)高考地理真题分类汇编(解析版).docx
- 专题01 中国特色社会主义-5年(2020-2024)高考1年模拟政治真题分类汇编(原卷版).docx
最近下载
- 13套题,必过,阿坝州拟任科级领导干部任职资格政治理论考试题汇总.pdf
- 2023年关于医药领域腐败问题全面集中整治自查自纠报告与医院开展医疗领域群众身边腐败作风问题专项整治工作总结【两篇】.docx VIP
- 高中语文必修二课件--念奴娇·赤壁怀古.ppt VIP
- 高中化学选修三全套.pptx VIP
- 中国特色社会主义理论体系的形成的历史条件.ppt VIP
- 领导讲话稿写作方法和技巧.ppt
- 高中:原创语文《反对党八股》(定稿).pptx VIP
- 液压升降机油路图液压升降机毕业设计.doc VIP
- 《管理学原理》全套课后习题答案(大学期末复习资料).docx
- 高中课件:原创语文《反对党八股》公开课课件.pptx VIP
文档评论(0)