- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、常用的种类 1、 最短距离法(Nearest Neighbor) x21? x12? x22? x11? 2、 最长距离法 ? ? ? x11? x21? ? ? ? 3、中间距离法 最长距离 最短距离 中间距离 4、可变方法 如果让中间距离法的递推公式前两项的系数也依赖于?,则递推公式为: 用上式作为递推公式的系统聚类法称为可变法。 类平均法定义类间的距离是两类间样品的距离的平均数。 5、类平均法 定义距离: 6、可变类平均法 类平均法的递推公式中,没有反映GK类和GL类的距离有多大,进一步将其改进,加入D2KL,并给定系数?1,则类平均法的递推公式改为: 用此递推公式进行聚类就是可变类平均法。递推公式由: K类和L类与J类的距离的加权平均数 K类和L类的距离 两项的加权和构成,β的大小根据哪项更重要而定。 7、离差平方和法 类似于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。 离差平方和法的思路是,先让n个样品各自成一类,然后缩小一类,每缩小一类离差平方和就要增大,选择使S2增加最小的两类合并,直到所有的样品归为一类为止。离差平方和法定义类间的平方距离为 其中 是由GK和GL合并成的GM类的类内离差平方和。可以证明离差平方和的聚类公式为 分别为GK和GL的重心,类与类之间的平方距离定义为两个类重心(类内样品平均值)间的平方距离。 重心法,也称为样品的均值法。设GK和GL 为两个类 8、重心法 设某一步GK和GL的重心分别为 和 ,类内的样品数分别为nK和nL,如果要把GK和GL合并为GM类,则GM类的样品数nM=nK+nL,GM类的重心为 和 的加权算术平均数: 距离递推公式为 二、确定类的个数 在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍几种方法。 1、给定阈值——通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.35,当聚类时,类间的距离已经超过了0.35,则聚类结束。 2、R2统计量 总离差平方和的分解 总离差平方和 类内离差平方和 离差平方和分解式 类间离差平方和 统计量 其中W是数据的总离差平方和, 是组内离差平方和。 比较大,说明分k个类时类内的离差平方和比较小,也就是说分k类是合适的。但是,分类越多,每个类的类内的离差平方和就越小, 也就越大;所以我们只能取合适的k,使得 足够大。比如,假定分4类时, =0.8; 下一次合并分3类时,下降了许多, =0.32,则分4 类是合适的。 3、伪F统计量的定义为 伪F统计量用于评价聚为k类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。 4、伪 统计量的定义为 其中 和 分别是的类内离差平方和, 是将K和L合并为第M类的离差平方和 = - - 为合并导致的类内离差平方和的增量。用它 评价合并第K和L类的效果,伪 统计量大说 明不应该合并这两类,应该取合并前的水平。 三、系统聚类法的基本性质 (一) 单调性 在聚类分析过程中,并类距离分别为l k(k=1,2,3,…?)若满足 ,则称该聚类方法具有单调性。可以证明除了重心法和中间距离法之外,其他的系统聚类法均满足单调性的条件。 (二)空间的浓缩和扩张 1、 定义矩阵的大小 设同阶矩阵D(A)和D(B),如果D(A)的每一个元素 不小于D(B)的每一个元素,则记为 。 2、空间的浓缩和扩张 设有两种系统聚类法A和B,他们在第i步的距离矩阵分别为Ai和Bi(I=1,2,3…),若AiBi ,则称第一种方法A比第二种方法B使空间扩张,或第二种方法比第一种方法浓缩。 3、方法的比较 D(短) D(平),D(重) D(平); D(长) D(平); 当
您可能关注的文档
最近下载
- 2024NIHSS评分量表解读PPT.pptx VIP
- 跨文化交际――中西方文化差异PPT课件.ppt VIP
- 12J1工程做法图集标准.docx VIP
- 《跨文化交际》课件:探索不同国家的文化差异.ppt VIP
- 四法一纲.doc VIP
- 新人教版8年级上册物理全册教学课件(2024年秋季新版教材).pptx
- 领导力与管理沟通PPT课件(共19章)第9章 非语言表达.pptx VIP
- 领导力与管理沟通PPT课件(共19章)第8章 书面表达.pptx VIP
- 2025年农村公路路面改造以工代赈项目可行性研究报告-新大纲.docx VIP
- 江苏省化工和危险化学品生产企业安全审计表解读 2025年1月2日.pptx VIP
文档评论(0)