5聚类法技术方案.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * p类和q类与L类的距离的加权平均数 * 类平均法定义类间的距离是两类间样品的距离的平均数。对应我们前面讨论的组间 ? 0 1 0 6.25 2.25 0 36 25 12.25 0 64 49 30.25 4 0 ¤例题: * 然后和被聚为新类,得 : 0 4.25 0 30.25 12.25 0 56.25 30.25 4 0 * 6 离差平方和法 2,4 1,5 6,5 * 类似于方差分析的想法,如果类分得恰当,同类内的样品之间的离差平方和应较小,而类间的离差平方和应当较大。 离差平方和法的思路是,当k固定时,选择使S达到最小的分类。先让n个样品各自成一类,然后缩小一类,每缩小一类离差平方和就要增大,选择使S2增加最小的两类合并,直到所有的样品归为一类为止。离差平方和法定义类间的平方距离为 * ? 0 0.5 0 3.125 1.125 0 18 12.50 6.125 0 32 24.50 15.125 2 0 * 其中 是由Gp和Gq合并成的Gr类的类内离差平方和。可以证明离差平方和的聚类公式为 * 方法 名称 参 数 D矩阵要求 空间性质 ap aq β γ 最短距离 1/2 1/2 0 -1/2 各种D 压缩 最远距离 1/2 1/2 0 1/2 各种D 扩张 中线法 1/2 1/2 -1/4≤β≤0 0 欧氏距离 保持 重心法 0 欧氏距离 保持 组平均法 0 0 各种D 保持 距离平方和法 0 欧氏距离 压缩 可变数平均法 1 0 各种D 不定 ①根据样品的特征,规定样品之间的距离 ,共有 个。将所有列表,记为D(0)表,该表是一张对称表。所有的样本点各自为一类。 ②选择D(0)表中最小的非零数,不妨假设 ,于是将 和 合并为一类,记为 。 7 系统聚类的一般方法 * ③利用递推公式计算新类与其它类之间的距离。分别删除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的结果,产生D(1)表。 * ④在D(1)表再选择最小的非零数,其对应的两类有构成新类,再利用递推公式计算新类与其它类之间的距离。分别删除D(1)表的相应的行和列,并新增一行和一列添上的新类和旧类之间的距离。结果,产生D(2)表。类推直至所有的样本点归为一类为止。 ¤下表给出了某农业生态经济系统各个区域单元的有关数据,下面我们运用系统聚类法,对该农业生态经济系统进行聚类分析,步骤如下: ①用标准差标准化方法,对9项指标的原始数据进行处理; ②采用欧氏距离测度21个区域单元之间的距离; ③选用组平均法,计算类间的距离,依据不同的聚类标准(距离),对各样本(各区域单元)进行聚类,并作出聚类谱系图。 * 表 某农业生态经济系统各区域单元的有关数据 * * 图 某农业生态经济系统区域单元的系统聚类(组平均法)谱系图 * 8 系统聚类法的基本性质 ①单调性 在聚类分析过程中,并类距离分别为l k(k 1,2,3,…?)若满足 ,则称该聚类方法具有单调性。可以证明除了重心法和中间距离法之外,其他的系统聚类法均满足单调性的条件。 ②空间的浓缩和扩张 ⅰ.定义矩阵的大小 设同阶矩阵D(A)和D(B),如果D(A)的每一个元素 不小于D(B)的每一个元素,则记为 。 * ⅱ.空间的浓缩和扩张 设有两种系统聚类法A和B,他们在第i步的距离矩阵分别为Ai和Bi(I 1,2,3…),若Ai Bi ,则称第一种方法A比第二种方法B使空间扩张,或第二种方法比第一种方法浓缩。 ⅲ.方法的比较 D(短) D(平),D(重) D(平); D(长) D(平); 当 ,D(变平) D(平); 当 ,D(变平) D(平)。 * 3.有序样本聚类法 1 功能范畴与数据类型 有序样本聚类法又称为最优分段法。该方法是由费歇在1958年提出的。它主要适用于样本由一个变量描述的情况。或者将多变量综合成为一个变量来分析。 设 是样本点构成的集合,样本点 在函数 上的取值为 。若 ,则将视为一类。不妨假设 。要将 分为 类;即 ,分类时不能打乱样本点的顺序,即每一类必须呈的 形式,即有序样本聚类。 * 例 这里n 4,m 3。若将其分为两类,其结果应该是 对应中的点是 。 有序样本聚类法常常被用于系统的评估问题,被用来对样本点进行分类划级。 ¤例:十二个地区的经济发展指数,排列出来以后,需要划分他们的等级。一种方法是按照行政命令。规定三个经济发达地区,四个中等发达的地区,三个一般地区,两个发展较差地区。 这种行政上的规定往往是不客观、不合理的。合理的分类应该把发展情况最近似的地区划入同一类。这就是有序样本聚类的工作

文档评论(0)

ddf55855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档