教材配套教学ppt——基本数据挖掘技术——k.pptVIP

下载本文档

5
0
约2.34千字
约 15页
2018-02-03 发布于天津
举报
版权申诉

教材配套教学ppt——基本数据挖掘技术——k.ppt

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

清华大学出版社第章基本数据挖掘技术之三聚类技术聚类分析技术将多个无明显分类特征的对象按照某种相似性分成多个簇的分析过程目前有许多聚类算法和技术第章统计技术算法均值算法最著名应用最广泛聚类效果也很好斯图尔特劳埃德于年提出的简单而有效的统计聚类技术第页共页均值算法基本思想随机选择一个值用以确定簇的总数在数据集中任意选择个实例将它们作为初始的簇中心计算这个簇中心与其他剩余实例的简单欧氏距离用这个距离作为实例之间相似性的度量将与某个簇相似度高的实例划分到该簇中成为其成员之一使用每个簇中的实例来计算该簇新

清华大学出版社第2章基本数据挖掘技术之三聚类技术 2.3 聚类分析技术将多个无明显分类特征的对象，按照某种相似性分成多个簇（Cluster）的分析过程。目前有许多聚类算法和技术（第7章统计技术）。 K-means算法（K-均值算法）最著名、应用最广泛、聚类效果也很好斯图尔特·劳埃德（Stuart Lloyd）于1982年提出的简单而有效的统计聚类技术。 * 第*页，共15页 K-均值算法基本思想（1）随机选择一个K值，用以确定簇的总数。（2）在数据集中任意选择K个实例，将它们作为初始的簇中心。（3）计算这K个簇中心与其他剩余实例的简单欧氏距离（Euclidean Distance），用这个距离作为实例之间相似性的度量，将与某个簇相似度高的实例划分到该簇中，成为其成员之一。（4）使用每个簇中的实例来计算该簇新的簇中心。（5）如果计算得到新的簇中心等于上次迭代的簇中心，终止算法过程。否则，用新的簇中心作为簇中心并重复步骤（3）~（5）。 * 第*页，共15页（2.9）其中：A、B为两个对象；x1、y1为对象A的属性；x2、y2为对象B 的属性。【例2.7】对表2.6中的数据进行K-means聚类分析。用于K-means算法的数据集 * 第*页，共15页 Instance x y 1 1.0 1.0 2 2.0 1.5 3 4.0 3.5 4 5.0 4.5 5 3.5 5 图2.18 表2.6中数据的坐标映射表2.6 用于K-means算法的数据集步骤（1）设置 K 值为2。（2）任意选择两个点分别作为两个簇的初始簇中心。假设选择实例1作为第1个簇中心，实例2作为第2个簇中心。（3）使用式2.9，计算其余实例与两个簇中心的简单欧氏距离（Euclidean Distance），结果如表2.7所示。 * 第*页，共15页第一次到第三次迭代中实例与簇之间的简单欧氏距离簇中心 C1 = (1.0,1.0) 和C2=(2.0,1.5) 簇中心 C1 = (1.0,1.0) 和C2=(3.625,3.625) 簇中心 C1 = (1.5,1.25) 和C2=(4.17,4.33) Instance C1 C2 C1 C2 C1 C2 1 0 1.12 0 3.71 0.56 4.60 2 1.12 0 1.12 2.68 0.56 3.57 3 3.91 2.83 3.91 0.40 3.36 0.85 4 5.32 4.24 5.32 1.63 4.78 0.85 5 4.72 3.81 4.72 1.38 4.25 0.95 * 第*页，共15页表2.7 第一次到第三次迭代中实例与簇之间的简单欧氏距离步骤（4）重新计算新的簇中心。对于簇1簇中心不变，即C1 = (1.0,1.0)。对于簇2：x = (2.0+4.0+5.0+3.5) / 4 = 3.625，y = (1.5+3.5+4.5+5) / 4 = 3.625。得到新的簇中心C1= (1.0,1.0) 和 C2= (3.625,3.625)，因为簇中心发生了变化，算法必须执行第二次迭代，重复步骤（3）。第二次迭代之后的结果导致了簇的变化：{1,2}和{3,4,5}。 * 第*页，共15页步骤（5）重新计算每个簇中心。对于簇1：x = (1.0+2.0) / 2= 1.5，y = (1.0+1.5) / 2 = 1.25。对于簇2：x = (2.0+5.0+3.5) / 3= 4.17，y = (3.5+4.5+5) / 3 = 4.33。这次迭代后簇中心再次改变。因此，该过程继续进行第三次迭代，结果形成{1,2}和{3,4,5}两个簇，与第二次迭代后形成的簇完全一样，若继续计算新簇中心的话，簇中心的值一定不变，至此，算法结束。 * 第*页，共15页结果 * 第*页，共15页 K-means算法的最优聚类通常为——簇中所有实例与簇中心的误差平方和最小的聚类。图2.19 表2.6中数据的聚类结果【例2.8】使用Weka对表2.6中的数据进行K-means聚类分析。结果 * 第*页，共15页图2.24 K-means聚类的可视化输出结果 2.3.2 K-means算法小结优势非常受欢迎的算法，容易理解，实现简单。局限性（1）只能处理数值型数据，若数据集中有分类类型的属性，要么将该属性删除，要么将其转换成等价的数值数据。（2）算法开始前，需要随机选择K值作为初始的簇个数（带有随意性，错误的选择将影响聚类效果）。通常选择不同的K值进行重复实验，期望找到最佳K值。（3）当簇的大小近似相等时，K-means算法的效果最好。（4）对于聚类贡献不大的属性可能会对聚类效果造成影响。在聚