数据挖掘聚类分析第六章.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘聚类分析第六章.ppt

例 某公司下属30个企业,公司为了考核下属企业的经济效益,设计了8个指标。为了避免重复,需要对这8个指标进行筛选,建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离,数据是1-r2。得如下表: ?x1 x2? ?x3 ?x4 x5? x6 ?x7 ?x8 ? x1 0 ? ? ? ? ? ? ? 0.60 0 ? ? ? ? ? ? 0.43 0.46 0 ? ? ? ? ? 0.47 0.45 0.12 0 ? ? ? ? 0.57 0.45 0.23 0.22 0 ? ? ? 0.38 0.40 0.21 0.29 0.22 0 ? ? 0.31 0.79 0.65 0.70 0.80 0.66 0 ? 0.45 0.45 0.27 0.23 0.14 0.19 0.77 0 试用将它们聚类。 x2? x3 x4 x5 ?x6 ?x7 ?x8 确定类的个数 在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。 给定阈值——通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=2.2,当聚类时,类间的距离已经超过了2.2,则聚类结束。 什么是好的聚类方法? 一个好的聚类方法可以产生高质量的聚类: 类的内部具有较高的相似度 类间具有较低的相似度 聚类结果的质量依赖于相似度评价方法以及它们的应用; 聚类结果的质量也取决于它发现隐藏模式的能力。. K-均值聚类 K-均值聚类方法是最简单、最常用的使用使用准则的方法。 K-均值聚类是属于划分方法中的基于质心技术的一种方法。划分的思路是以k为参数,把n个对象分为k 个类,以使类内具有较高的相似度,而类间的相似度较低。相似度的计算根据一个类中对象的平均值(被看作类的重心)来进行。 K-均值聚类的处理流程如下。首先,随机选择k个对象,每个对象都初始地代表一个类的平均值或中心。对剩余的对象,根据其与各自类中心的距离,将它赋给最近的类。然后重新计算每个类的平均值。这个过程不断重复,直到准则函数收敛。 注意:类均值的初始值是任意分配的,可以随机分配也可以直接使用前K个成员的属性值。 K-均值聚类实例 假设给定如下要进行聚类的元组:{2,4,10,12,3,20,30,11,25},并假设k=2.初始时用前两个数值作为类的均值;m=2 和 m=4.利用欧几里德距离,可得K1={2,3}和K2={4,10,12,20,30,11,25}。数值3与两个均值的距离相等,所以任意地选择K1作为其所属类。在这种情况下,可以进行任意指派。计算均值可得m1=2.5 和 m2=16。重新对类中的成员进行分配,不断重复上述过程,直至均值不再变化。 具体过程如表: m1 m2 K1 K2 2 4 {2,3} {4,10,12,20,30,11,25} 2.5 16 {2,3,4} {10,12,20,30,11,25} 3 18 {2,3,4,10} {12,20,30,11,25} 4.75 19.6 {2,3,4,10,11,12} {20,30,25} 7 25 {2,3,4,10,11,12} {20,30,25} 注意在最后两步中类的成员是一致的,由于均值不再变化,所以均值已经收敛了。因此,该问题的答案为: K1={2,3,4,10,11,12} 和 K2={20,30,25} K-均值法要求定义的类均值存在,并且要以期望的类的数目k作为输入。 要求用户必须事先给出k(要生成的类的数目)可以算是该方法的一个缺点。而且,它对于“噪声”和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。 K-Means聚类示例 增量聚类 在越来越多的应用中,必须对收集来的大量数据进行聚类。“大量”的定义随着技术的改变而不同。在六十年代,“大量”意味着几千个聚类的样本。现在,有些应用涉及到成千上万个高维样本的聚类。 增量聚类方法是最流行的,我们将解释它的基本原理,下面是增量聚类方法的所有步骤: 1、对样本排序后,把第一个数据项分配到第一个类里。 2、考虑下一个数据项,把它分配到目前某个类中或一个新类中。给分配是基于一些准则的,例如新数据项到目前类的重心的距离。在这种情况下,每次添加一个新数据项到一个目前的类中时,需要重新计算重心的值。 3、重复步骤2,直到所有的数据样本都被聚类完毕。 例如: 设 x1=(0,2

文档评论(0)

企业资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档