管理统计学PPT教学课件-第九章 聚类分析.ppt

管理统计学PPT教学课件-第九章 聚类分析.ppt

  1. 1、本文档共103页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
管理统计学 2010年 9 聚类分析与判别分析 9.1 聚类分析 9.2 判别分析 9.1 聚类分析 9.1.1 基本原理和方法 9.1.2 系统聚类法 9.1.3 系统聚类的SPSS应用 9.1.4 K均值聚类法 9.1.5 K均值聚类法的SPSS应用 9.1.1 基本原理和方法 聚类分析:采用定量数学方法,根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据 分类的基本思想:把一些相似程度较大的样品(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕 聚类分析 例如:有p个指标(变量),n个对象,依据这n个对象在p个指标下的数据,对这n个对象进行聚类。设数据为: 每一个对象是p维空间中的一个点 聚类问题,就是在p维空间中,对这n个点的聚类问题 使用聚类分析的注意的问题 变量(指标)不能太多,否则,难以判断聚类结果的实际意义 指标间有一定的相关关系(不必高度相关),可以对所观察的一群个体分类,从而可以对个体进行进一步的研究 变量(指标)过多,则可对指标分类,把有相近含义的指标聚到一起,把整个指标群分为若干类 聚类分析的分类 样本聚类/Q型聚类:对观测量(Case)进行聚类,不同的目的选用不同的指标作为分类的依据 变量聚类/R型聚类:能够找出彼此独立且有代表性的自变量,而又不丢失大部分信息,主要是对研究对象的观测变量进行聚类,使得具有共同特征的变量作为一类 聚类分析的步骤 ① 选择描述事物对象的变量(指标) ② 形成数据文件,建立样品资料矩阵 ③ 确定数据是否需要标准化 ④ 确定表示对象距离或相似程度的统计量 ⑤ 计算对象间的距离(rij)和相似关系矩阵R(rij) 对称阵:i到j的距离与j到i的距离相等 ⑥ 选择类与类之间的距离定义 ⑦ 聚类 ⑧ 分类 度量样本之间相似程度的统计量 距离: 将一个样品看作P维空间的一个点,并在空间用某种度量测量点与点之间的距离,距离越近的点归为一类,距离较远的点归为不同的类 以dij表示第i个样本与第j个样本间的距离,需要满足以下四个条件 dij≥0,对一切i和j成立 dij=0,当且仅当i=j成立 dij=dji≥0,对一切i和j成立 dij≤dik+dkj,对于一切i和j成立 相似系数: 变量或样品的关系越密切,其性质就越接近,它们的相似系数的绝对值越接近1;反之,它们的相似系数的绝对值越接近于零,即样品的关系越疏远 样品之间相似系数大的样品归为一类,样品之间相似系数小的样品归为不同的类,即两点相似系数越接近1,就相当于距离越短,即相似的为一类,不相似的属于不同类 常用距离的分类 ①欧氏距离 ②欧氏距离平方 ③偏差距离 ④明考夫斯基距离 ⑤马氏距离 ⑥相关系数 类间距离计算方法 类间距离: 最基本的类:由一个点组成的类 每一类都由一个点组成,点间的距离就是类间距离 某一类包含不止一个点,就要确定类间距离 最短距离连接法: 用两类中所有样本对距离的最小值作为两类的距离,合并距离最近或相关系数最大的两类 最长距离连接法: 用两类中所有样本对距离的最大值作为两类的距离,合并距离最近或相关系数最大的两类 类间平均距离连接法: 将两个类中所有的样本的平均距离作为两个类的距离,合并距离最近或相关系数最大的两类 聚类分析的类型 ①聚合法: 每个样本自成一类 计算各类之间相似程度统计量,把最相似的两类合并成一类 重复上步,直到所有样本归为一类 ②分解法: 所有样本归为一类 分为两类 重复上步,一直到每个样本归为一类或不能再细分为止 ③调优法: 开始人为将样本初始分类 判断该分类是否最优,如果不是则进行修改 重复上述步骤,直到分类达到最优为止 分类数的确定 戴米尔曼(Demirmen,1972)提出的根据树状结构图来分类的准则: 准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大 准则2:各类所包含的元素都不要过多 准则3:分类的数目应该符合使用的目的 准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类 层次聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具 在层次聚类过程中,先把离得近的类合并,在并类过程中聚合系数呈增加趋势 聚合系数小,表示合并的两类的相似程度大,两个差异很大的类合到一起,会使该系数增大 聚类方法的选择 影响聚类方法的使用效果的因素 类的结构(主要指类的形状、规模和个数) 奇异值的存在 类与类之间重叠的程度 相似测度的选择 奇异值是指和样本中其他的观测量差异很大的观测量,它远离其它观测量,自成一类 9.1.2 系统聚类法 系统聚类法基本思想

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档