两种简单的聚类算法.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

④对每个聚合中的每个样本,计算:2)(||)(||1IZxnniikiiii--=r,ci,...2,1=iir表示cJ减少的部分。2)(||)(||1IZxnnjikjjij-+=r,cj,...2,1=,ij1ijr表示cJ增加的部分。令:}{minijijilrr1=,若iiilrr,则把样本)(ikx移到聚合中心lw中,并修改聚合中心和cJ值。])([11)()1()(ikiiiixIZnIZIZ--+=+])([11)()1()(iklljlxIZnIZIZ-+-=+)()()1(iliiccIJIJrr--=+⑤判断:若)()1(IJIJcc+,则1+=II,返回④。否则,算法结束。Jc与C的关系曲线上述C-均值算法,其类型数目假定已知,为c。对于未知时,可以令c逐渐增加。使用C-均值算法,误差平方和Jc随c的增加而单调减少。最初,由于c较小,类型的分裂会使Jc迅速减小,但当c增加到一定数值时,Jc的减小速度会减慢,直到c=n时,Jc=0。Jc-C关系曲线如下图。图中,曲线的拐点A对应着接近最优的c值。并非所有的情况都容易找到Jc-C关系曲线的拐点,此时c值将无法确定。下面介绍一种确定类型数目c的方法。2.ISODATA聚类算法ISODATA算法:IterativeSelf-OrganizingDataAnalysisTechniguesAlgorithm,迭代自组织的数据分析算法。ISODATA算法特点:可以通过类的自动合并(两类合一)与分裂(一类分为二),得到较合理的类型数目c。具体算法步骤: ⑴给定控制参数 k:预期的聚类中心数目。四、c-均值与ISODATA聚类算法(续)ISODATA算法中,起始聚合中心的选取对聚类过程和结果都有较大影响,如果选择的好,则算法收敛快,聚类质量高。注意:ISODATA与C-均值算法的异同点: ①都是动态聚类算法。 ②C-均值简单,ISODATA复杂。 ③C-均值中,类型数目固定,ISODATA中,类型数目可变。各类呈椭圆状分布时C-均值算法效果不好五、基于样本和核相似性度量基于样本和核相似性度量的聚类算法采用一个“核”来代表一个类核Kj可以是一个函数,一个点集,等等样本和核之间相似性的度量准则函数,最小化的目标样本和核相似性度量的聚类算法(续)算法步骤类似于C-均值1.选择初始划分并计算初始核2.重新分配各个样本3.修正核,并重复2-3直至收敛C-均值算法=以类均值为核,欧氏距离作为样本和核之间的相似性度量样本和核相似性度量的聚类算法(续)算法收敛的充分条件:准则函数J满足Γ,K修正之前的分类和对应的核,修正之后的分类和对应的两种简单的聚类算法两种简单的聚类算法(续)2.最大最小距离聚类算法例:样本分布如图所示。系统聚类系统聚类:先把每个样本作为一类,然后根据它们间的相似性和相邻性聚合。相似性、相邻性一般用距离表示(1)两类间的距离1、最短距离:两类中相距最近的两样本间的距离。2、最长距离:两类中相距最远的两个样本间的距离。3、中间距离:最短距离和最长距离都有片面性,因此有时用中间距离。设ω1类和ω23类间的最短距离为d12,最长距离为d13,ω23类的长度为d23,则中间距离为d0:4、重心距离:均值间的距离5、类平均距离:两类中各个元素两两之间的距离平方相加后取平均值6、离差平方和:设N个样品原分q类,则定义第i类的离差平方和为:离差平方和增量:设样本已分成ωp,ωq两类,若把ωp,ωq合为ωr类,则定义离差平方:(2)系统聚类的算法首先将m个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止。例:如下图所示1、设全部样本分为6类,ω1ω2ω3ω4ω5ω29ω3116ω4491664ω5254364ω6642581192、作

文档评论(0)

192****4212 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档