- 1、本文档共342页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类设计的评价函数 一种直接方法就是观察聚类的类内差异(Within cluster variation)和类间差异(Between cluster variation)。 类内差异:衡量聚类的紧凑性,类内差异可以用特定的距离函数来定义,例如, 类间差异:衡量不同聚类之间的距离,类间差异定义为聚类中心间的距离,例如, 聚类的总体质量可被定义为w(c)和b(c)的一个单调组合,比如w(c) / b(c) 。 k-means算法 k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使用的聚类算法。相似度的计算根据一个簇中对象的平均值来进行。 输入:簇的数目k和包含n个对象的数据库。 输出:k个簇,使平方误差准则最小。 (1)assign initial value for means; /*任意选择k个对象作为初始的簇中心;*/ (2) REPEAT (3) FOR j=1 to n DO assign each xj to the closest clusters; (4) FOR i=1 to k DO / *更新簇平均值*/ (5) Compute /*计算准则函数E*/ (6) UNTIL E不再明显地发生变化。 k-means算法 算法首先随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。 准则函数试图使生成的结果簇尽可能地紧凑和独立。 k-means例子 样本数据 序号 属性 1 属性 2 1 1 1 2 2 1 3 1 2 4 2 2 5 4 3 6 5 3 7 4 4 8 5 4 迭代次数 平均值 平均值 产生的新簇 新平均值 新平均值 (簇1) (簇2) (簇1) (簇2) 1 (1,1) (1,2) {1,2},{3,4,5,6,7,8} (1.5,1) (3.5,3) 2 (1.5,1) (3.5,3) {1,2,3,4},{5,6,7,8} (1.5,1.5) (4.5,3.5) 3 (1.5,1.5) (4.5,3.5) {1,2,3,4},{5,6,7,8} (1.5,1.5) (4.5,3.5) 根据所给的数据通过对其实施k-means (设n=8,k=2),,其主要执行执行步骤: 第一次迭代:假定随机选择的两个对象,如序号1和序号3当作初始点,分别找到离两点最近的对象,并产生两个簇{1,2}和{3,4,5,6,7,8}。 对于产生的簇分别计算平均值,得到平均值点。 对于{1,2},平均值点为(1.5,1)(这里的平均值是简单的相加出2); 对于{3,4,5,6,7,8},平均值点为(3.5,3)。 第二次迭代:通过平均值调整对象的所在的簇,重新聚类,即将所有点按离平均值点(1.5,1)、(3.5,1)最近的原则重新分配。得到两个新的簇:{1,2,3,4}和{5,6,7,8}。重新计算簇平均值点,得到新的平均值点为(1.5,1.5)和(4.5,3.5)。 第三次迭代:将所有点按离平均值点(1.5,1.5)和(4.5,3.5)最近的原则重新分配,调整对象,簇仍然为{1,2,3,4}和{5,6,7,8},发现没有出现重新分配,而且准则函数收敛,程序结束。 k-means算法的性能分析 主要优点: 是解决聚类问题的一种经典算法,简单、快速。 对处理大数据集,该算法是相对可伸缩和高效率的。 当结果簇是密集的,它的效果较好。 主要缺点 在簇的平均值被定义的情况下才能使用,可能不适用于某些应用。 必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。 不适合于发现非凸面形状的簇或者大小差别很大的簇。而且,它对于“躁声”和孤立点数据是敏感的。 例子 初始点 初始点 PAM算法基本思想 PAM作为最早提出的k-中心点算法之一,它选用簇中位置最中心的对象作为代表对象,试图对n个对象给出k个划分。 代表对象也被称为是中心点,其他对象则被称为非代表对象。 最初随机选择k个对象作为中心点,该算法反复地用非代表对象
您可能关注的文档
- 嵌入式系统设计原理及应用-存储系统02技术分析.ppt
- 嵌入式系统实验和课程设计2014年秋季技术分析.ppt
- 嵌入式系统实验一技术分析.ppt
- 旅游信息化技术分析.ppt
- 旅游信息化简明第1章技术分析.ppt
- 旅游信息化简明第3章技术分析.ppt
- 嵌入式系统应用领域及发展技术分析.ppt
- 旅游资源开发与规划___第一章绪论技术分析.ppt
- 嵌入式系统应用实例技术分析.ppt
- 旅游资源开发与乡村旅游发展技术分析.ppt
- 2.1等式性质与不等式性质(培优教学课件)人教A版2019必修第一册.pptx
- 4《窦娥冤(节选)》课件-2024-2025学年统编版高一语文必修下册.pptx
- 13.2+磁感应强度+磁通量-2025-2026学年高二物理同步备课(人教版2019必修第三册).pptx
- 8.3《琵琶行(并序)》课件+2025-2026学年统编版高一语文必修上册.pptx
- 6.《芣苢》《插秧歌》联读课件+2025-2026学年统编版高一语文必修上册.pptx
- +2026届高三化学有效复习备考策略+课件.pptx
- 2025年高考英语读后续写阅卷报告+课件-2026届高三英语上学期一轮复习专项.pptx
- 2025年普通高等学校招生全国统一考试:全国I卷语文真题解析.pptx
- 2026届高考语文一轮复习备考:精准施策+专注前行+课件.pptx
- 1.1《子路、曾晳、冉有、公西华侍坐》课件-2024-2025学年统编版高一语文必修下册.pptx
最近下载
- 存储网络配置指导华为oceanstor sns2124 2224 2248 3096 5192 5384产品概述.pdf VIP
- YB∕T 4001.3-2020- 钢格栅板及配套件 第3部分:钢格板楼梯踏板.pdf VIP
- 中国钢结构制造企业资质管理规定(暂行).pdf
- VTE的治疗与预防.pptx VIP
- (公共英语等级考试三级大纲词汇4107个记忆情况.doc VIP
- [医疗机构设置审批有关规定.doc VIP
- 建设工程档案管理课件.ppt VIP
- DD 2019-02 固体矿产地质调查技术要求(1:50000).pdf VIP
- xx太阳能发电公司50MWp光伏电站项目安全设施设计专篇.pdf VIP
- 物业管理单位服务费用测算明细表.pdf VIP
文档评论(0)