- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
清华大学出版社第章基本数据挖掘技术之三聚类技术聚类分析技术将多个无明显分类特征的对象按照某种相似性分成多个簇的分析过程目前有许多聚类算法和技术第章统计技术算法均值算法最著名应用最广泛聚类效果也很好斯图尔特劳埃德于年提出的简单而有效的统计聚类技术第页共页均值算法基本思想随机选择一个值用以确定簇的总数在数据集中任意选择个实例将它们作为初始的簇中心计算这个簇中心与其他剩余实例的简单欧氏距离用这个距离作为实例之间相似性的度量将与某个簇相似度高的实例划分到该簇中成为其成员之一使用每个簇中的实例来计算该簇新
清华大学出版社 第2章 基本数据挖掘技术 之 三 聚类技术 2.3 聚类分析技术 将多个无明显分类特征的对象,按照某种相似性分成多个簇(Cluster)的分析过程。 目前有许多聚类算法和技术(第7章 统计技术)。 K-means算法(K-均值算法) 最著名、应用最广泛、聚类效果也很好 斯图尔特·劳埃德(Stuart Lloyd)于1982年提出的简单而有效的统计聚类技术。 * 第*页,共15页 K-均值算法基本思想 (1)随机选择一个K值,用以确定簇的总数。 (2)在数据集中任意选择K个实例,将它们作为初始的簇中心。 (3)计算这K个簇中心与其他剩余实例的简单欧氏距离(Euclidean Distance),用这个距离作为实例之间相似性的度量,将与某个簇相似度高的实例划分到该簇中,成为其成员之一。 (4)使用每个簇中的实例来计算该簇新的簇中心。 (5)如果计算得到新的簇中心等于上次迭代的簇中心,终止算法过程。否则,用新的簇中心作为簇中心并重复步骤(3)~(5)。 * 第*页,共15页 (2.9) 其中:A、B为两个对象;x1、y1为对象A的属性;x2、y2为对象B 的属性。 【例2.7】 对表2.6中的数据进行K-means聚类分析。 用于K-means算法的数据集 * 第*页,共15页 Instance x y 1 1.0 1.0 2 2.0 1.5 3 4.0 3.5 4 5.0 4.5 5 3.5 5 图2.18 表2.6中数据的坐标映射 表2.6 用于K-means算法的数据集 步骤 (1)设置 K 值为2。 (2)任意选择两个点分别作为两个簇的初始簇中心。假设选择实例1作为第1个簇中心,实例2作为第2个簇中心。 (3)使用式2.9,计算其余实例与两个簇中心的简单欧氏距离(Euclidean Distance),结果如表2.7所示。 * 第*页,共15页 第一次到第三次迭代中实例与簇之间的简单欧氏距离 簇中心 C1 = (1.0,1.0) 和C2=(2.0,1.5) 簇中心 C1 = (1.0,1.0) 和C2=(3.625,3.625) 簇中心 C1 = (1.5,1.25) 和C2=(4.17,4.33) Instance C1 C2 C1 C2 C1 C2 1 0 1.12 0 3.71 0.56 4.60 2 1.12 0 1.12 2.68 0.56 3.57 3 3.91 2.83 3.91 0.40 3.36 0.85 4 5.32 4.24 5.32 1.63 4.78 0.85 5 4.72 3.81 4.72 1.38 4.25 0.95 * 第*页,共15页 表2.7 第一次到第三次迭代中实例与簇之间的简单欧氏距离 步骤 (4)重新计算新的簇中心。 对于簇1簇中心不变,即C1 = (1.0,1.0)。 对于簇2:x = (2.0+4.0+5.0+3.5) / 4 = 3.625,y = (1.5+3.5+4.5+5) / 4 = 3.625。 得到新的簇中心C1= (1.0,1.0) 和 C2= (3.625,3.625),因为簇中心发生了变化,算法必须执行第二次迭代,重复步骤(3)。 第二次迭代之后的结果导致了簇的变化:{1,2}和{3,4,5}。 * 第*页,共15页 步骤 (5)重新计算每个簇中心。 对于簇1:x = (1.0+2.0) / 2= 1.5,y = (1.0+1.5) / 2 = 1.25。 对于簇2:x = (2.0+5.0+3.5) / 3= 4.17,y = (3.5+4.5+5) / 3 = 4.33。 这次迭代后簇中心再次改变。因此,该过程继续进行第三次迭代,结果形成{1,2}和{3,4,5}两个簇,与第二次迭代后形成的簇完全一样,若继续计算新簇中心的话,簇中心的值一定不变,至此,算法结束。 * 第*页,共15页 结果 * 第*页,共15页 K-means算法的最优聚类通常为——簇中所有实例与簇中心的误差平方和最小的聚类。 图2.19 表2.6中数据的聚类结果 【例2.8】 使用Weka对表2.6中的数据进行K-means聚类分析。 结果 * 第*页,共15页 图2.24 K-means聚类的可视化输出结果 2.3.2 K-means算法小结 优势 非常受欢迎的算法,容易理解,实现简单。 局限性 (1)只能处理数值型数据,若数据集中有分类类型的属性,要么将该属性删除,要么将其转换成等价的数值数据。 (2)算法开始前,需要随机选择K值作为初始的簇个数(带有随意性,错误的选择将影响聚类效果)。通常选择不同的K值进行重复实验,期望找到最佳K值。 (3)当簇的大小近似相等时,K-means算法的效果最好。 (4)对于聚类贡献不大的属性可能会对聚类效果造成影响。在聚
您可能关注的文档
- 建设项目基本情况-介休.doc
- 江西财经大学教学大纲.doc
- 交流电压及电流的有效值.ppt
- 教科书编撰准则-国立空中大学.pdf
- 教科书劳动人权解析-新北教师会.doc
- 教科书内容基本要件-国立空中大学.doc
- 教师专业化与健康课堂.ppt
- 接触热阻对高温换热设备.pdf
- 解决问题的策略——转化设计及课后反思-兴化小学.doc
- 仅使用载波相位观测量的三频gps长距离动态定位方法之发展.pdf
- 《快递末端共同配送模式下的快递行业可持续发展研究》教学研究课题报告.docx
- 2025至2030国内智能水龙头行业市场发展现状及竞争格局与投资发展前景报告.docx
- 2025至2030国内智能洗碗机行业市场发展分析及竞争策略与投资发展报告.docx
- 2025至2030国内智能再干机行业市场发展分析及竞争策略与投资发展报告.docx
- 外科急诊科常见动物致伤诊疗规范(2021版).pptx
- 2025年拼多多高级经营能力认证试题.doc
- 2025至2030国内智能牙刷行业市场发展分析及竞争策略与投资发展报告.docx
- 2025年农业发展集团试题.doc
- 2025年苹果树苗阅读理解题.doc
- 轻量化人工智能教育资源在初中数学解题教学中应用与思维训练的实践研究教学研究课题报告.docx
最近下载
- VEICHI伟创 AC310系列变频调速器使用手册2021.06.pdf VIP
- 隧道施工课件.ppt VIP
- 第五届国家级新区经开区高新区班组长管理技能大赛备赛试题库-下(判断题汇总).docx VIP
- DB 6108T 53-2023 煤基固废调理剂修复沙化土地技术规范.docx VIP
- DB6108_T 52-2023 煤基固废调理剂修复盐碱地技术规范.docx VIP
- 行政人事部年终工作总结.pdf VIP
- 行政人事部年终工作总结.pptx VIP
- 第五届国家级新区经开区高新区班组长管理技能大赛备赛试题库-中(多选题汇总).docx VIP
- 化工厂物资明细表.xls VIP
- 第五届国家级新区经开区高新区班组长管理技能大赛试题库(浓缩500题).docx VIP
文档评论(0)