以Excel和SPSS为工具的管理统计 教学课件 作者 7 302 11702 0 管理统计第12章.pptVIP

以Excel和SPSS为工具的管理统计 教学课件 作者 7 302 11702 0 管理统计第12章.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用统计第3章 本章教学目标 掌握聚类分析的原理和方法; 掌握几种聚类分析方法; 掌握用SPSS软件进行聚类分析 本章主要内容 §12.1 距离和相似性度量 §12.2 系统聚类法 §12.3 动态聚类法 §12.4 有序样品的聚类 §12.5 聚类分析的上机实现 本章重点:系统聚类法;聚类分析的上机实现 概述 聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的亲疏程度进行分类。 根据分类对象的不同,聚类分析可分为Q型聚类分析和R型聚类分析两大类。 Q型是综合利用多个变量对样本进行分类处理,R型是对变量进行分类处理。 ●???间隔尺度变量:即连续变化的实值变量,如长度、重量、压力等。 ●?? 有序尺度变量:这种变量没有明确的数量表示,但其所取的各种状态间有次序关系。如评价卷烟可分为甲、乙、丙三级。 ●???名义尺度变量:这种变量没有数量表示,其状态间也没有次序关系。如性别可为男和女,医疗诊断中的阴性和阳性,天气的阴和晴,眼睛的颜色等。 当我们对事物进行分类时,总是要选定一种度量用以衡量两个事物间的接近程度,以便把相互接近的放在一起形成一类,而把疏远的分别放在不同的类别之中。一般可选用的度量分为两大类,即距离和相似性度量。 一、距离 下面主要考虑间隔尺度变量的情形。设有n个样品,每个样品有p个指标,设 为第i个样品的第j个指标。 数据标准化: 1.标准差标准化 先对每个变量求其样本均值和样本方差 做下述变化 2. 级差标准化 先求样本级差: 做下述变换 有时也做如下变换: 距离的定义 用 表示样品i和样品j之间的距离。按一般要求,距离 应满足以下4条公理: ≥0 对一切 ≤ 如果所定义的距离只满足准则(1),(2),(3),而不满足(4),则称此距离为广义距离。 最常用的距离是 1.绝对距离: 2.欧式距离: 3.明考夫斯基距离: 4.切比雪夫距离 : 消除量纲的影响办法有: (1)当各指标的量纲相差悬殊时,先对数据标准化,然后用标准化的数据计算距离。 (2)兰氏距离 : 马氏距离: 这距离不但消除了量纲的影响,也对相关性做了考虑。 【例12.1】 已知一个二维正态总体G的分布为 求点 和 至均值 的距离 解:由假设可得 从而 如果用欧氏距离,则有 两者相等,而按马氏距离两者差19倍之多。 我们知道本例的分布密度是 A和B两点的密度分别是 【例12.2】 某高校举办一个培训班,从学员的资料中得到这样6个变量:性别,取值男和女;外语语种,取值为英、日和俄;专业,取值为统计、会计和金融;职业,取值为教师和非教师;居住,取值为校内和校外;学历,取值为本科和本科以下。 现有两名学员: x1 = (男,英,统计,非教师,校外,本科)T x2 = (女,英,金融,教师,校外,本科生)T 这两个学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为m1不配合的变量数为m2,则它们之间的距离可定义为 二、相似系数 聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。 变量 与 的相似系数用 来表示,它一般应满足下三个条件: 当且仅当 a( )和b是常数 ≤1 对一切i, j; 对一切i, j。 最常用的相似系数有如下两种: 1. 夹角余弦 变量的 夹角余弦定义为 2. 相关系数 变量 与 的相关系数为 §12.2 系统聚类法 系统聚类法(hierarchical clustering method)是使用最多的一种聚类方法。 它的基本思想是:先将每个样品(或变量)作为一类,然后选定样品(或变量)间的一种距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类之间的距离,再重复上述并类过程,直到最后全都并成一类为止。 以下我们用 表示第i个样品与第j个样品的距离, 表示类, 表示 与 的距离。 一、最短距离法 定义类与类之间的距离为两类最近样品间的距离,即 称这种系统聚类法为最短距离法

您可能关注的文档

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档