- 1、本文档共91页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五版(第六章)
1.单调性 令Di是系统聚类法中第i次并类时的距离,如果一种系统聚类法能满足D1≤D2≤D3≤? ,则称它具有单调性。 这种单调性符合系统聚类法的思想,先合并较相似的类,后合并较疏远的类。 最短距离法、最长距离法、类平均法、离差平方和法、可变法和可变类平均法都具有单调性,但重心法和中间距离法不具有单调性。 * *2.空间的浓缩与扩张 设A=(aij)和B=(bij)是两个元素非负的同阶矩阵,若aij≥bij(对一切i, j),则记作A≥B。该记号仅在本节中使用。 设有两种系统聚类法,它们在第i步的距离矩阵分别为Ai和Bi,i=0,1,?,n?1,若Ai≥Bi,i=1,?,n?1,则称第一种方法比第二种方法使空间扩张,或第二种方法比第一种方法使空间浓缩。 设聚类中的某步将类GK和GL合并成新类GM,由于接下来的一步在计算类之间的距离时,老类之间的距离仍保持不变,故比较不同聚类法的聚类距离我们只需比较任一老类GJ到新类GM的距离即可。用D(*)表示用“*”方法聚类时的距离矩阵。 * 以类平均法为基准,有如下一些结论: (1) D(短)≤ D(平),D(重)≤ D(平)。 (2) D(长)≥ D(平)。 (3) 当0<β<1时,D(变平)≤ D(平);当β<0时, D(变平)≥ D(平)。 太浓缩的方法不够灵敏,太扩张的方法可能因灵敏度过高而容易失真。 类平均法比较适中,它既不太浓缩也不太扩张,因此它在这方面是比较理想的。最短距离法是一种非常浓缩的方法,容易出现链接倾向。 * 3.一个说明性的例子(例6.3.4) * (1)采用最短距离法。可以算得: 当聚成两类时,C1和C11组成一类,其余所有的点组成另一类,这里出现了链接现象; 当聚成三类时,C1和C11组成第Ⅰ类,其余的C点组成第Ⅱ类,所有的A点和B点组成第Ⅲ类。 (2)采用类平均法。经算得: 当聚成两类时,一类由所有C点构成,另一类由所有A点和所有B点构成; 当聚成三类时,A点群、B点群和C点群各自作为一类。 * 九、使用图形作聚类及对聚类效果的评估 1.使用图形作直观的聚类 2.使用图形对聚类效果的评估 * 1.使用图形作直观的聚类 当p=2时,可以直接在散点图上进行主观的聚类,其效果未必逊于、甚至好于正规的聚类方法,特别是在寻找“自然的”类和符合我们实际需要的类方面。 当p=3时,我们可使用统计软件产生三维旋转图,通过旋转三维坐标轴从各个角度来观测散点图,作直观的聚类。但由于其视觉效果及易操作性远不如平面散点图,故实践中很少采用。 当p ≥3时,有时我们可采用主成分分析或因子分析的技术将维数降至2(或3)维,然后再生成散点图(或旋转图),从直觉上进行主观的聚类。 * 寻找“自然的”类 * 2.使用图形对聚类效果的评估 经聚类分析已将类分好之后,常常希望从统计的角度看一下聚类的效果:不同类之间是否分离得较好,同一类内的样品(或变量)是否彼此相似。 通常可通过构造图形作直观的观测,所使用的图形有如下两种: (1)将p维数据画于平面图上,方法有平行(坐标)图、星形图、切尔诺夫脸谱图、星座图和安德鲁曲线图等; (2)使用费希尔判别的降维方法,将p维数据降至2(或3)维再构造散点图(或旋转图)。 如果方法(2)能够成功,则往往更值得推荐,尤其在样品数很大的场合下。 * 例6.3.5 在例6.3.3中,为了从原始数据的直观图形上来看一下按Ward方法聚成三类的效果,使用JMP软件的聚类结果中带有的并排平行图(或称轮廓图)。 平行图中的八个变量轴相互平行等间隔,各变量轴上的坐标是已标准化了的值。 前两类中的高亮轮廓线分别属于广东和西藏,它们在类内显得较为异类,需要时皆可自成一类。 * 图6.3.15 Ward方法所分三类的平行图 * 图6.3.16 按图6.3.13分三类的两个判别函数得分的散点图 * 图6.3.17 按图6.3.13分五类的两个判别函数得分的散点图 十、对变量的聚类 最短距离法、最长距离法和类平均法都属于连接方法,它们既可以用于样品的聚类,也能够用于变量的聚类。不过并非所有的系统聚类方法都适用于对变量的聚类。 * 例6.3.7 对305名女中学生测量八个体型指标: x1:身高 x5:体重 x2:手臂长 x6:颈围 x3:上肢长 x7:胸围 x4:下肢长 x8:胸宽 * 表6.3.11 各对变量之间的相关系数 ? x1 x2 x3 x4 x5 x6 x7 x8 x1 1.000 ? ? ? ? ? ? ? x2 0.846 1.000 ? ? ? ? ? ? x3 0.805 0.881 1.000 ? ? ? ? ? x4 0.859 0.826 0.801 1.000 ? ? ? ? x5 0.473 0.376 0
文档评论(0)