聚类分析及实现.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

中间距离第30页,共65页,星期日,2025年,2月5日(3)类平均距离即用两类中所有两两样品之间距离的平均作为两类间距离(4)重心距离其中分别是Gp,Gq的重心,这是用两类的重心之间的欧氏距离作为两类间的距离。(5)离差平方和距离(ward)显然,离差平方和距离与重心距离的平方成正比。第31页,共65页,星期日,2025年,2月5日4.2.2类间距离的递推公式设有两类Gp,Gq合并成新的一类Gr,包含了nr=np+nq个样品,如何计算Gr与其他类别Gk之间的距离,这就需要建立类间距离的递推公式。(1)最短距离(2)最长距离(3)类平均距离(4)重心距离第32页,共65页,星期日,2025年,2月5日证明:将代入(1)(1)将上式中加上再减去与,合并同类项得第33页,共65页,星期日,2025年,2月5日上式第二行合并同类项,得(5)离差平方和距离第34页,共65页,星期日,2025年,2月5日1.选择样本间距离的定义及类间距离的定义;2.计算n个样本两两之间的距离,得到距离矩阵3.构造个类,每类只含有一个样本;4.合并符合类间距离定义要求的两类为一个新类;5.计算新类与当前各类的距离。若类的个数为1,则转到步骤6,否则回到步骤4;6.画出聚类图;7.决定类的个数和类。4.2.3谱系聚类法的步骤

谱系聚类的步骤如下:第35页,共65页,星期日,2025年,2月5日系统聚类分析的方法系统聚类法的聚类原则决定于样品间的距离以及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。以下用dij表示样品X(i)和X(j)之间的距离,当样品间的亲疏关系采用相似系数Cij时,令;以下用D(p,q)表示类Gp和Gq之间的距离。第36页,共65页,星期日,2025年,2月5日(1)n个样品开始作为n个类,计算两两之间的距离或相似系数,得到实对称矩阵(2)从D0的非主对角线上找最小(距离)或最大元素(相似系数),设该元素是Dpq,则将Gp,Gq合并成一个新类Gr=(Gp,Gq),在D0中去掉Gp,Gq所在的两行、两列,并加上新类与其余各类之间的距离(或相似系数),得到n-1阶矩阵D1。第37页,共65页,星期日,2025年,2月5日(3)从D1出发重复步骤(2)的做法得到D2,再由D2出发重复上述步骤,直到所有样品聚为一个大类为止。(4)在合并过程中要记下合并样品的编号及两类合并时的水平,并绘制聚类谱系图。例4.从例1算得的样品间的欧氏距离矩阵出发,用下列方法进行谱系聚类。(1)最短距离,(2)最长距离解:我们用1,2,3,4,5分别表示辽宁、浙江、河南、甘肃和青海,将距离矩阵记为D0第38页,共65页,星期日,2025年,2月5日(1)最短距离法:将各省看成一类,即Gi={i}i=1,…,5,从D0可以看出各类中距离最短的是d43=2.20,因此将G3,G4在2.20水平上合成一个新类G6={3,4},计算G6和G1,G2,G5之间的最短距离,得第39页,共65页,星期日,2025年,2月5日将计算结果作为第一列,从D0中去掉第3、4行与3、4列,剩余元素作为其余各列得到D1从D1可以看出G6与G5的距离最小,因此在2.21的水平上将G6与G5合成一类G7,即G7={3,4,5}计算G7与G1,G2之间的最短距离,得第40页,共65页,星期日,2025年,2月5日将计算结果作为第一列,从D1中划掉{3,4}与{5}所在的行与列,剩余元素作为其他列得从D2可以看出G1,G2最接近,在11.67的水平上合并成一类G8,至此只剩下G7,G8两类,他们之间的距离为:12.8,故在此水平上将合成一类,包含了全部的五个省份。最后,我们作出谱系聚类图:第41页,共65页,星期日,2025年,2月5日图1最短距离聚类图最长距离聚类方法,同学练习第42页,共65页,星期日,2025年,2月5日例为了研究辽宁等5省1991年城镇居民生活消费情况的分布规律,根据调查资料做类型分类,用最短距离做类间分类。数据如下:x1x2x3x4x5x6x7x8辽宁17.9039.778.4912.9419.2711.052.0413.29浙江27.6850.3711.3513.3019.2514.592.7514.87河南39.4227.93

文档评论(0)

xiaolan118 + 关注
实名认证
文档贡献者

你好,我好,大家好!

版权声明书
用户编号:7140162041000002

1亿VIP精品文档

相关文档