- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CSE 802. Prepared by Martin Law 智能数据挖掘 Topic3--聚类分析 K-means K-medoids 聚类 主要内容 K-means算法 Matlab程序实现 在图像分割上的简单应用 K-medoids算法 k-中心点聚类算法--PAM K-medoids改进算法 基于划分的聚类方法 构造n个对象数据库D的划分, 将其划分成k个聚类 启发式方法: k-平均值(k- means)和 k-中心点(k- medoids) 算法 k-平均值(MacQueen’67): 每个簇用该簇中对象的平均值来表示 k-中心点或 PAM (Partition around medoids) (Kaufman Rousseeuw’87): 每个簇用接近聚类中心的一个对象来表示 这些启发式算法适合发现中小规模数据库中的球状聚类 对于大规模数据库和处理任意形状的聚类,这些算法需要进一步扩展 K-means聚类算法 算法描述 为中心向量c1, c2, …, ck初始化k个种子 分组: 将样本分配给距离其最近的中心向量 由这些样本构造不相交( non-overlapping )的聚类 确定中心: 用各个聚类的中心向量作为新的中心 重复分组和确定中心的步骤,直至算法收敛 K-means聚类算法(续) 算法的具体过程 从数据集 中任意选取k个赋给初始的聚类中心c1, c2, …, ck; 对数据集中的每个样本点xi,计算其与各个聚类中心cj的欧氏距离并获取其类别标号: 按下式重新计算k个聚类中心; 重复步骤2和步骤3,直到达到最大迭代次数、聚类目标函数达到最优值或者两次迭代得到的目标函数变化小于给定的?为止。 k-平均聚类算法(续) 例 Matlab程序实现 Matlab程序实现(续) 在图像分割上的简单应用 在图像分割上的简单应用(续) 在图像分割上的简单应用(续) k-平均聚类算法(续) 优点: 相对有效性: O(tkn), 其中 n 是对象数目, k 是簇数目, t 是迭代次数; 通常, k, t n. 当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好 k-平均聚类算法(续) 弱点 只有在簇的平均值(mean)被定义的情况下才能使用.可能不适用于某些应用, 例如涉及有分类属性的数据 需要预先指顶簇的数目k, 不能处理噪音数据和孤立点(outliers) 不适合用来发现具有非凸形状(non-convex shapes)的簇 k-中心点聚类方法 k-平均值算法对孤立点很敏感! 因为具有特别大的值的对象可能显著地影响数据的分布. k-中心点(k-Medoids): 不采用簇中对象的平均值作为参照点, 而是选用簇中位置最中心的对象, 即中心点(medoid)作为参照点. k-中心点聚类方法(续) 找聚类中的代表对象(中心点) PAM (Partitioning Around Medoids, 1987) 首先为每个簇随意选择选择一个代表对象, 剩余的对象根据其与代表对象的距离分配给最近的一个簇; 然后反复地用非代表对象来替代代表对象,以改进聚类的质量 PAM 对于较小的数据集非常有效, 但不能很好地扩展到大型数据集 k-中心点聚类方法(续) 基本思想: 首先为每个簇随意选择选择一个代表对象; 剩余的对象根据其与代表对象的距离分配给最近的一个簇; 然后反复地用非代表对象来替代代表对象, 以改进聚类的质量; 聚类结果的质量用一个代价函数来估算。 k-中心点聚类方法(续) 为了判定一个非代表对象Orandom 是否是当前一个代表对象Oj的好的替代, 对于每一个非代表对象p,考虑下面的四种情况: 第一种情况:p当前隶属于代表对象 Oj. 如果Oj被Orandom所代替, 且p离Oi最近, i≠j, 那么p被重新分配给Oi 第二种情况:p当前隶属于代表对象 Oj. 如果Oj 被Orandom代替, 且p离Orandom最近, 那么p被重新分配给Orandom k-中心点聚类方法(续) 第三种情况:p当前隶属于Oi,i≠j。如果Oj被Orandom代替,而p仍然离Oi最近,那么对象的隶属不发生变化 第四种情况:p当前隶属于Oi,i≠j。如果Oj被Orandom代替,且p离Orandom最近,那么p被重新分配给Orandom k-中心点聚类方法(续) 算法: k-中心点 (1) 随机选择k个对象作为初始的代表对象; (2) repeat (3) 指派每个剩余的对象给离它最近的代表对象所代表的簇; (4) 随意地选择一个非代表对象Orandom; (5) 计算用Orandom代替Oj的总距离E, 如果E比取代前下降则则用Orandom替
您可能关注的文档
最近下载
- 2021年河南中考化学真题及答案.doc VIP
- 4.1水资源及其利用(第1课时保护水资源)课件---2024-2025学年九年级化学人教版(2024)上册.pptx VIP
- 华中科技大学大学物理2014-2015期末考试.pdf VIP
- 果树栽培学完整课件各论苹果.ppt VIP
- 连锁酒店行业2025年扩张策略与风险规避报告.docx
- 国企三项制度改革-10、任期制契约化任期业绩目标责任书(总经理).pdf VIP
- 肝衰竭诊治指南(2024年版)解读.pptx
- 住宅物业管理服务规范DB3505T 17—2024.pdf VIP
- 2024辅警面试问题及答案 .pdf VIP
- 副局长意识形态工作总结.docx VIP
文档评论(0)