数据挖掘聚类分析(第六章).pptVIP

下载本文档

4
0
约2.72千字
约 19页
2018-03-24 发布于安徽
举报
版权申诉

数据挖掘聚类分析(第六章).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

专业资料，精品文档！

确定类的个数在聚类分析过程中类的个数如何来确定才合适呢？这是一个十分困难的问题，人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。什么是好的聚类方法? 一个好的聚类方法可以产生高质量的聚类：类的内部具有较高的相似度类间具有较低的相似度聚类结果的质量依赖于相似度评价方法以及它们的应用；聚类结果的质量也取决于它发现隐藏模式的能力。. K-均值聚类 K-均值聚类方法是最简单、最常用的使用使用准则的方法。 K-均值聚类是属于划分方法中的基于质心技术的一种方法。划分的思路是以k为参数，把n个对象分为k 个类，以使类内具有较高的相似度，而类间的相似度较低。相似度的计算根据一个类中对象的平均值被看作类的重心来进行。 K-均值聚类的处理流程如下。首先，随机选择k个对象，每个对象都初始地代表一个类的平均值或中心。对剩余的对象，根据其与各自类中心的距离，将它赋给最近的类。然后重新计算每个类的平均值。这个过程不断重复，直到准则函数收敛。注意：类均值的初始值是任意分配的，可以随机分配也可以直接使用前K个成员的属性值。 K-均值聚类实例假设给定如下要进行聚类的元组： 2,4,10,12,3,20,30,11,25 ，并假设k 2.初始时用前两个数值作为类的均值；m 2 和 m 4.利用欧几里德距离，可得K1 2,3 和K2 4,10,12,20,30,11,25 。数值3与两个均值的距离相等，所以任意地选择K1作为其所属类。在这种情况下，可以进行任意指派。计算均值可得m1 2.5 和 m2 16。重新对类中的成员进行分配，不断重复上述过程，直至均值不再变化。具体过程如表：注意在最后两步中类的成员是一致的，由于均值不再变化，所以均值已经收敛了。因此，该问题的答案为: K1 2,3,4,10,11,12 和 K2 20,30,25 K-均值法要求定义的类均值存在，并且要以期望的类的数目k作为输入。要求用户必须事先给出k（要生成的类的数目）可以算是该方法的一个缺点。而且，它对于“噪声”和孤立点数据是敏感的，少量的该类数据能够对平均值产生极大的影响。 K-Means聚类示例增量聚类在越来越多的应用中，必须对收集来的大量数据进行聚类。“大量”的定义随着技术的改变而不同。在六十年代，“大量”意味着几千个聚类的样本。现在，有些应用涉及到成千上万个高维样本的聚类。增量聚类方法是最流行的，我们将解释它的基本原理，下面是增量聚类方法的所有步骤： 1、对样本排序后，把第一个数据项分配到第一个类里。 2、考虑下一个数据项，把它分配到目前某个类中或一个新类中。给分配是基于一些准则的，例如新数据项到目前类的重心的距离。在这种情况下，每次添加一个新数据项到一个目前的类中时，需要重新计算重心的值。 3、重复步骤2，直到所有的数据样本都被聚类完毕。例如：设 x1 0,2 ,x2 0,0 ,x3 1.5,0 ,x4 5,0 ,X5 5,2 假定样本的顺序是：X1,X2,X3,X4,X5, 类间相似度的阈值水平是s 3。 1、第一个样本X1将变成第一个类C1 x1 .x1的坐标就是重心坐标M1 0，2 。 2、开始分析其他样本。 a 把第2个样本x2和M1比较，距离d为: d x2,M1 2.0 3 因此，x2属于类C1，新的重心是： M1 0,1 b 第3个样本x3和重心M1（仍是仅有的重心）比较： d x3,M1 C 第4个样本X4和重心M1比较： d x4,M1 因为样本到重心M1的距离比阈值s大，因此该样本将生成一个自己的类C2 X4 , 其相应的重心为M2 5，0 。 d 第5个样本和这两个类的重心相比较： d x5,M1 d x5,M2 故 C2 X4,X5 得到 M2 5，1 3、分析完所有的样本，最终的聚类解决方案是获得两个类： C1 X1,X2,X3 C2 X4,X5 缺点：依赖数据项的顺序。增量聚类对样本的顺序非常敏感。对于不同的顺序，该方法会生成完全不同的类。 * * 例某公司下属30个企业，公司为了考核

您可能关注的文档

文档评论（0）

gubeiren_001 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

数据挖掘聚类分析(第六章).pptVIP