管理统计学-第8章 聚类分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
管理统计学-第8章 聚类分析

第8章 聚类分析 8 聚类分析 8.1 基本原理和方法 8.2 系统聚类法 8.3 系统聚类的SPSS应用 8.4 K均值聚类法 8.5 K均值聚类法的SPSS应用 例:对7种产品的销售情况进行检验。共有两个指标,销售额和销售量,其数值分别如下表所示。选择合适的统计方法对这些产品进行分类。 现在如果将这七个产品按照销售量和销售额的大小把他们分成两类。很容易得出,产品1,2,3应该是一类的,产品4,5,6,7应该是一类的。如果将他们分成三类,则仍很易得出产品1,2,3还是一类的,产品4,5,6是一类的,产品7是自成一类的。 可见对产品的分类事先是没有给定标准的,完全从给出的样本数据出发进行分类。产品1和2,3在一类是因为在销售量和销售额上的接近,与产品4,5,6,7不在一类,则是因为在销售量和销售额上比较大的差距。 聚类分析的作用正是在于此,主要用于辨识具有相似性的事物,并根据彼此不同的特性加以“聚类”,即自动分类,使同一类的事物具有高度的相似性,不同类的事物有较大的差异性。 它是把事物按其相似程度进行分类,在分类过程中,人们无需自己先定义一个分类标准,聚类分析能够从现有的样本数据出发,按它们的亲疏程度分成若干类。 8.1 基本原理和方法 聚类分析:采用定量数学方法,根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据 分类的基本思想:把一些相似程度较大的样品(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕。 聚类分析 例如:有p个指标(变量),n个对象,依据这n个对象在p个指标下的数据,对这n个对象进行聚类。设数据为: 每一个对象是p维空间中的一个点 聚类问题,就是在p维空间中,对这n个点的聚类问题 聚类分析的分类 样本聚类/Q型聚类:对观测量(Case)进行聚类,不同的目的选用不同的指标作为分类的依据 变量聚类/R型聚类:能够找出彼此独立且有代表性的自变量,而又不丢失大部分信息,主要是对研究对象的观测变量进行聚类,使得具有共同特征的变量作为一类 聚类分析的步骤 ① 选择描述事物对象的变量(指标) ② 形成数据文件,建立样品资料矩阵 ③ 确定数据是否需要标准化 ④ 确定表示对象距离或相似程度的统计量 ⑤ 计算对象间的距离(rij)和相似关系矩阵R(rij) 对称阵:i到j的距离与j到i的距离相等 ⑥ 选择类与类之间的距离定义 ⑦ 聚类 ⑧ 分类 度量样本之间相似程度的统计量 距离: 将一个样品看作P维空间的一个点,并在空间用某种度量测量点与点之间的距离,距离越近的点归为一类,距离较远的点归为不同的类 以dij表示第i个样本与第j个样本间的距离,需要满足以下四个条件 dij≥0,对一切i和j成立 dij=0,当且仅当i=j成立 dij=dji≥0,对一切i和j成立 dij≤dik+dkj,对于一切i和j成立 相似系数: 变量或样品的关系越密切,其性质就越接近,它们的相似系数的绝对值越接近1;反之,它们的相似系数的绝对值越接近于零,即样品的关系越疏远 样品之间相似系数大的样品归为一类,样品之间相似系数小的样品归为不同的类,即两点相似系数越接近1,就相当于距离越短,即相似的为一类,不相似的属于不同类 常用距离的分类 由于距离的类型不同,其定义式也稍有差异,下面介绍聚类分析中对连续型变量常用的几种距离及其定义式。 (1)欧氏距离(Euclidean Distance):两样本之间的距离是两个样本在每个变量上的相应值之差的平方和的平方根。 (2)欧氏距离平方(Squared Euclidean Distance ):两样本之间的距离是两个样本在每个变量上的相应值之差的平方和。 (4)马氏距离 (Block):也称广义欧氏距离,是两个样本在每个变量上的相应值之差的绝对值的总和。 (6)自定义距离(Customized): 两样本x,y 之间的距离是两个样本在每个变量上的相应值之差的绝对值的p次方的总和再求q次方根。 相似系数 相似系数的计算 (1)夹角余弦 夹角余弦时从向量集合的角度所定义的一种测量变量之间亲疏程度的相似系数。它是受相似形的启发而来的,在形状相似而长度不是主要矛盾时用夹角余弦能反映出指标之间的关系。 设在n维空间的向量: 定义夹角余弦为: 相似系数 (2)相关系数 相关系数常用rij表示,这是大家较为熟悉的统计量之一。为了和其它相似系数的符号统一,这里将它记做cij(2)。 设

文档评论(0)

jiupshaieuk12 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档