- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
spss第十六讲聚类分析与判别分析
第十六讲聚类分析与判别分析 第一部分 上一讲回顾 第二部分 聚类分析概念 第三部分 聚类分析的SPSS过程 第四部分 判别分析 1、回归分析及模型 2、线性回归 3、线性回归SPSS过程 4、曲线估计 第二部分 聚类分析概念 俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。 结构 一、分类 二、什么是聚类分析 三、如何度量远近 四、两个距离概念 分类 聚类分析有 1、系统聚类法 2、有序样品聚类法 3、动态聚类法 4、模糊聚类法 5、图论聚类法 6、聚类预报法等 (注:一般用的是系统聚类法。) 什么是聚类分析 1、聚类分析起源于分类学。在考古的分类学中,人们主要依靠经验和专业知识事项分类,形成数值分类学。 例子:对我国30个省市自治区独立核算工业企业经济效益的分析;对某些大城市物价指数考核等。 (注:值得提出的是将聚类分析和其他方法联系起来使用,如判别分析、主成分分析、回归分析等效果更好。) 什么是聚类分析 2、聚类分析是根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 根据分类对象的不同, ①、分为样品(观测量)聚类 ②、变量聚类两种 样品聚类: 对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)。 变量聚类: 找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。 什么是聚类分析 比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。 本部分主要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。 如何度量远近? 如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。 如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。 三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。 如何度量远近? 判断关系方法 1、一种方法用相似系数 2、另一种方法将一个样本看作是P维空间的一个点,并在空间定义距离,距离越近的点归为一类。 变量类型:scale、nominal、0rdinal。 问:聚类分析与相关分析和距离分析是否有关? 两个距离概念 按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。 1、点间距离的计算方法主要有: 欧氏距离(Euclidean distance) 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 最常用的是平方欧氏距离 类和类之间的距离 由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离。 类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。 备注 在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。 另外还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。 相似性的度量(样本点间距离的计算方法) 相似性的度量(变量相似系数的计算方法) 类间距离的计算方法 类间距离的计算方法 Centroid clustering(重心法)—用两个类别的重心之间的距离来表示两个类别之间的距离 between-groups linkage(组间平均距离法)—SPSS的默认方法。是用两个类别中间各
您可能关注的文档
- Simulink在自动控制原理中的应用.doc
- Sister Carrte主题分析.ppt
- Sizzle引擎原理与实践.docx
- SIS系统作业指导书.doc
- SL RC400程序设计.doc
- sky6.5.1认识环境管理.ppt
- sister-carrie-嘉莉妹妹.ppt
- SL632混凝土单元及工序评定表.doc
- SMC-气动基本回路.ppt
- SMSC362.8T22M液压起重机技术规格书(CT).docx
- 2025年有机光伏行业政策驱动与市场发展动力研究.docx
- 初中生数字素养提升策略研究——基于智能教育平台的个性化教学实践教学研究课题报告.docx
- 2025年绿色能源认证行业国际比较分析.docx
- 起重信号司索工(建筑特殊工种)试题及答案.docx
- 2025年服务业第三方物流行业成本控制优化报告[001].docx
- 《2025年农产品品牌营销与区域电商渠道创新报告》.docx
- 区域教育均衡发展中的产学研合作机制:基于人工智能教育应用的探索教学研究课题报告.docx
- 初中数学教师数字教学能力评价多元主体参与机制探索教学研究课题报告.docx
- 2025年家庭医生签约服务培训测试题(含答案).docx
- 2025年在线办公软件安全认证认证流程优化报告.docx
原创力文档


文档评论(0)