多元课件第5章聚类分析m.pptxVIP

  • 12
  • 0
  • 约4.97千字
  • 约 254页
  • 2022-04-05 发布于北京
  • 举报
1;本章内容 第一节 聚类分析的基本思想 第二节 距离和相似系数 (难点) 第三节 系统聚类法( 重点、难点) 第四节 K--均值聚类 第五节 有序样品的聚类 第六节 计算步骤及在经济管理中的应用;3; 俗话说:“物以类聚,人以群分”,在社会、经济、管理、气象、地质、人口、考古等众多领域,都存在着大量的分类研究问题。;5; 在古老的分类学中,人们主要靠经验和专业知识进行定性的分析,很少利用数学工具进行定量的分类。许多分类往往带有主观性和任意性,不能揭??客观事物的内在本质差别和联系。 ;7;8;9;10;把一些相似程度较大的样品(指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(指标)有聚合成另外一类……..关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(指标)都聚合完毕,把不同类型意义划分出来,形成一个由小到大的分类系统。;12; 聚类分析适用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。 与多元分析的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析的三大方法。 ;14;三、聚类的种类;16;17;第二节 相似性测度—— ;19;引例—变量类型;;22;23;24;25;26;27;28;29;30;31;32;33;34;二、距离—样品间相似性的测度 ;36;37;38;首先我们看样本数据:;40;当q=∞时:切比雪夫(Chebychev)距离;绝对值距离实例;欧式(Euclidian )距离;二维空间欧式距离;欧氏Euclidian距离实例;; 明氏距离特别是其中的欧氏距离是聚类分析中用得最广泛的距离,但是有一些缺点: ①一方面距离与各变量的量纲有关,而各指标计量单位的选择有一定的人为性和随意性。 ②另一方面,没有考虑指标之间的相关性。 例如:对体重和身高进行测量,采用不同单位,其距离测量的结果不同。 ;48;49;50;51; 设有两个正态总体, ;从图上看出,若按欧氏距离来度量,A点离 的中心 要比离 的中心 “近一些”, 但是从概率论的角度来看,A点位于 右侧约 处,而位于 左侧约 处,那么应该认为A点离 要比离 “近一些”。 显然,后一种度量更为合理.它是用坐标差平方除以方差(或乘以方差的倒数),从而化为无量纲数,推广到多维就要乘以协方差阵;假定两个班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样。 一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。 那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢?怎么比较才能合理呢?;在我们的例子中,张颖的标准得分为(90-78.53)/9.43=1.22,而刘疏的标准得分为(82-70.19)/7=1.69。 刘疏的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。;56;57;58;59;60;61;62;63;64; 马氏距离的不足之处是公式中的∑(样品协方差矩阵),若始终不变,则往往显得不妥;若要随聚类过程而不断变化,则有许多不便。因此在实际聚类分析中,马氏距离也不是理想的距离。 ;66; 以上几种距离的定义均要求变量是间隔尺度的,如果使用的变量是有序尺度或名义尺度的,则有相应的一些定义距离的方法。;68;69; ;71;72;夹角余弦—cosine 尽管图中AB和CD 长度不一样,但形 状相似。当长度不 是主要矛盾时,就 可利用夹角余弦这 样的相似系数。;74;75;76;77;78;79;80;81;系统聚类法是诸聚类分析方法中使用最多的一种,它是将类由多变到少的一种方法。 本节的重点和难点是各种聚类分析方法的介绍 注意各种聚类分析方法的异同点 不同点——距离定义的区别;相同点——归类步骤基本一致。;系统聚类法的基本思想;84;85;系统聚类法的基本步骤;87;类与类之间的距离 ;类与类之间的距离 ;(一)最短距离法 (single linkage,nearest neighbor) ;91;92;93;94;95;;97;98;99;100;101;102;103;(二)最长距离法 (complete linkage,furthest neighbor) ;107;108;109;110;111;112;113;114;115;116

文档评论(0)

1亿VIP精品文档

相关文档