- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多元统计分析均值向量与协方差阵的检验PPT
8、重心法 用重心法对5个样品进行分类。首先采用绝对距离计算距离平方矩阵: ? 0 ? ? ? ? 1 0 ? ? ? 6.25 2.25 0 ? ? 36 25 12.25 0 ? 64 49 30.25 4 0 分别为Gp和Gq的重心,类与类之间的距离定义为 两个类重心(类内样品平均值)间的平方距离。 重心法,也称为样品的均值法。设Gp和Gq 为两个类 设某一步Gp和Gq的重心分别为为和,类内的样品数分别为和,如果要把Gp和Gq合并为Gr类,则Gr类的样品数nr=np+nq,Gr类的重心为 和 的加权算术平均数: 重心法递推公式 假设第p类和第q类合并成第r类,第r类与其它各旧类 的距离按重心法为: G4和G6的距离为 6、可变方法 7、离差平方和法 离差平方和法 (三)确定类的个数 在聚类分析过程中类的个数如何来确定才合适呢?这是一个十分困难的问题,人们至今仍未找到令人满意的方法。但是这个问题又是不可回避的。下面我们介绍几种方法。 1、给定阈值——通过观测聚类图,给出一个合适的阈值T。要求类与类之间的距离不要超过T值。例如我们给定T=0.35,当聚类时,类间的距离已经超过了0.35,则聚类结束。 总离差平方和的分解(准备知识) 如果样品被分成两类 可以证明: 总离差平方和 =组内离差平方和+组间离差平方和 令T为总离差平方和 令PG为分为G类的组内离差平方和。 2、统计量 其中T是数据的总离差平方和, 是组内离差平方和。 比较大,说明分G个类时类内的离差平方和比较小,也就是说分G类是合适的。但是,分类越多,每个类的类内的离差平方和就越小, 也就越大;所以我们只能取合适的G,使得 足够大,而G本身很小,随着G的增加, 的增幅不大。比如,假定分4类时, =0.8;下一次合并分三类时,下降了许多, =0.32,则分4 类是合适的。 3、伪F统计量的定义为 伪F统计量用于评价聚为G类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。 Pseudo F Statistic 0 10 20 30 40 50 60 70 80 90 100 110 120 Number of Clusters 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 4、伪 统计量的定义为 其中 和 分别是的类内离差平方和, 是将K和L合并为第M类的离差平方和 = - - 为合并导致的类内离差平方和的增量。用它 评价合并第K和L类的效果,伪 统计量大说 明不应该合并这两类,应该取合并前的水平。 五、 系统聚类法的基本性质 (一) 单调性 在聚类分析过程中,并类距离分别为l k(k=1,2,3,…?)若满足 ,则称该聚类方法具有单调性。可以证明除了重心法和中间距离法之外,其他的系统聚类法均满足单调性的条件。 (二)空间的浓缩和扩张 1、 定义矩阵的大小 设同阶矩阵D(A)和D(B),如果D(A)的每一个元素 不小于D(B)的每一个元素,则记为 。 2、空间的浓缩和扩张 设有两种系统聚类法A和B,他们在第i步的距离矩阵分别为Ai和Bi(I=1,2,3…),若AiBi ,则称第一种方法A比第二种方法B使空间扩张,或第二种方法比第一种方法浓缩。 3、方法的比较 D(短) D(平),D(重) D(平); D(长) D(平); 当 ,D(变平) D(平); 当 ,D(变平) D(平)。 系统聚类分析方法的统一公式 出发点:上述聚类方法的并类原则和步骤是完全一样的,所不同的是类与类之间的距离公式有不同的定义,从而得到不同的递推公式。1969年维希特提出了统一的公式,这为编制统一的计算机程序提供了极大的方便性。 剩余信息的剔除 进行Q型聚类分析时,必须选择恰当的反映样本的变量,选择对聚类效果较为显著的变量,剔除对聚类分析效
文档评论(0)