- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
15聚类分析
* 若分类数k是已知的,求分类法b(n,k),使它在损失函数意义下达到最小,其求法如下: 首先从分两类开始,找出分点jk,使 于是得第k类 3、最优解的求法 * 然后,找出jk-1,使它满足 于是得第k-1类 * 再然后,找出jk-2,使它满足 于是得第k-2类 类推。一直可以得到所有类G1,G2,…Gk,这就是所求得最优解。 * 4、L[b(n,k)]的递推公式(证明见张润楚P 258) 以上的两个公式的含义是,如果要找到n个样品分为k个类的最优分割,应建立在将j-1(j=2,3,…,n)个样品分为k-1类的最优分割的基础上。 * 总结 1、选择变量 (1)和聚类分析的目的密切相关 (2)反映要分类变量的特征 (3)在不同研究对象上的值有明显的差异 (4)变量之间不能高度相关 2、计算相似性 相似性是聚类分析中的基本概念,他反映了研究对象之间的亲疏程度,聚类分析就是根据对象之间的相似性来分类的。有很多刻画相似性的测度 * 3、聚类 选定了聚类的变量,计算出样品或指标之间的相似程度后,构成了一个相似程度的矩阵。这时主要涉及两个问题: (1)选择聚类的方法 (2)确定形成的类数 * 聚类的思想-“类间越远,类内越近的聚类才叫好” 一般说来,同一批数据采用不同的亲疏测度指标,会得到不同的分类结果。在实际问题中,对样品分类常用距离,对指标分类常用相似系数;用距离时找最小的元素并类,用相似系数时找最大的元素并类。 1、相近的聚为一类(以距离表示,样品聚类) 2、相似的聚为一类(以相似系数表示,变量聚类) * 如何确定类的个数 在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。 1、给定阈值——通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.35,当聚类时,类间的距离已经超过了0.35,则聚类结束。 * 2、统计量 其中T是数据的总离差平方和, 是组内离差平方和。 比较大,说明分G个类时类内的离差平方和比较小,也就是说分G类是合适的。但是,分类越多,每个类的类内的离差平方和就越小, 也就越大;所以我们只能取合适的G,使得 足够大,而G本生很小,随着G的增加, 的增幅不大。比如,假定分4类时, =0.8;下一次合并分三类时,下降了许多, =0.32,则分4 类是合适的。 * 3、伪F统计量的定义为 伪F统计量用于评价聚为G类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。 * 系统聚类例子 :各民族之间的欧氏距离(标准化资料)D0 满族 朝鲜族 蒙古族 维吾尔族 藏族 哈萨克族 G1={S1} G2={S2} G3={S3} G4={S4} G5={S5} G6={S6} 满族 G1={S1} 0 朝鲜族 G2={S2} 1.208 0 蒙古族 G3={S3} 1.732 0.526 0 维吾尔族 G4={S4} 3.570 2.374 1.851 0 藏族 G5={S5} 3.224 2.048 1.539 0.422 0 哈萨克族 G6={S6} 3.173 1.973 1.448 0.406 0.311 0 D1 G1={S1} G2={S2} G3={S3} G4={S4} G7={S5,S6} G1={S1} 0 G2={S2} 1.208 0 G3={S3} 1.732 0.526 0 G4={S4} 3.570 2.374 1.851 0 G7={S5,S6} 3.173 1.973 1.448 0.406 0 D1 G1={S1} G2={S2} G3={S3} G4={S4} G7={S5,S6} G1={S1} 0 G2={S2} 1.208 0 G3={S3} 1.732 0.526 0 G4={S4} 3.570 2.374 1.851 0 G7={S5,S6} 3.173 1.973 1.448 0.406 0 D2 G1={S1} G2={S2} G3={S3} G8={S4,S5,S6} G1={S1} 0 G2={S2} 1.208 0 G3={S3} 1.732 0.526 0 G8={S4,S5,S6} 3.173 1.973 1.448 0 D3 G1={S1} G9
您可能关注的文档
最近下载
- 电阻焊的原理.ppt VIP
- 机械设计与创新 三相交流异步电动机的选型原则步骤及实例 【课件】任务6.1.1三相交流异步电动机的选型原则步骤及实例.pptx VIP
- 一建【建筑】口袋里的建造师-周超【完全版】.pdf VIP
- 全身型幼年特发性关节炎及合并巨噬细胞活化综合征诊疗专家共识.docx VIP
- 声乐课程教学大纲-音乐学院.pdf
- 食品安全管理保障措施.doc VIP
- 燃气锅炉安全隐患排查治理检查表.doc VIP
- (2023秋)冀教版一年级数学上册《 前后、左右》PPT课件.pptx VIP
- 课程设计与授课技巧.pptx VIP
- 巨噬细胞活化综合征与幼年特发性关节炎 MAS and SOJIA.ppt VIP
文档评论(0)