Cluster analysis聚类分析.pdf

下载文档 降价啦

64
0
约4.2万字
约 26页
2015-09-30 发布于重庆
举报
版权申诉
保障服务

Cluster analysis聚类分析.pdf

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Cluster analysis聚类分析

第 12 章聚类分析 12.1 模型简介 12. 1. 1 问题的提出人以类聚，物以群分，人们总是试图把万千世界中的事物按照它们的各种属性和特征分成有限的类别，从而方便地进行进一步的认识和研究。把事物分成若干类别的方法有很多种，能够想到最简单的方法就是根据经验来划分。例如图 12. 1 (a) 所显示的数据是某次科学研究中调查的 18 岁人群的身高和体重散点图，为了能够进一步研究，人们希望对其进行分类。通常可以想到的最简单的方法就是根据常识可以把人群分为 4 类瘦高、胖高、瘦小、矮胖，标准是: (1)瘦高:身高大于人群平均身高，体重小于人群平均体重; (2) 胖高:身高大于人群平均身高，体重大于人群平均体重; (3) 瘦小:身高小于人群平均身高，体重小于人群平均体重; (4) 矮胖:身高小于人群平均身高，体重大于人群平均体重。分类结果如图 12. 1 (a) 所示。但是仔细考虑，会发现这种分类方法会有一些问题，一是不同类别在散点图中没有明显的区分;二是很少利用了数据本身的信息，在这个例子中仅仅利用了平均数信息;二是如果当区分变量多时(比如 10 个) ，就很难再用经验对其进行这种机械的分类了。考虑到以上问题，人们发明了根据数据本身结构特征对数据进行分类的方法聚类分析，通过聚类分析，可以把数据分成若干个类别，使得类别内部的差异尽可能的小，类别间的差异尽可能的大。图 12. 1 (b) 图就是利用聚类分析得到的身高体重数据的分类结果，它把人群分成了 5 类，可以看出不同的类别之间的区别明显了(表现在图中就是不同类别问散点有一定距离) ，更多了利用了数据本身的信息，位于图形右上方的异常值也被单独的划成了一类，另外这种分类方法可以同时处理很多个变量情况下的分类问题。和在前面章节学习的统计方法不同，聚类分析是一种探索性的统计分析方法，它没有过多的统计理论支持，也没有很多的统计检验对聚类结果的正确性负责仅仅是按照所定义的距离将数据进行归类而己，有的统计学家就因此而拒绝承认它是一种统计方法。从应用的角度讲，针对某一个特定问题，很难得出一个完全确定，也能够得到理论完全支持的结论，更多的时候是依据聚类结果在问题中的有用性来判断模型效果的好坏。 • 235 • 图 12.1 不同的分类方法示意图 12. 1. 2 聚类分析入门聚类分析的实质就是按照距离的远近将数据分为若干个类别，以使得类别内数据的差异尽可能小，类别|可差异尽可能大。因此，在进行聚类分析是要重点要明确以下一些问题: 1.所用的变量类型变量可以被分成两类，一类是分类变量(诸如民族、性别等) ，另一类是连续性变量(诸如身高、销售收入等)。这两类变量在聚类时常用的距离测量方式完全不同，如连续性变量一般使用欧氏平方距离，而分类变量则使用矿作为距离指标。因此，多数传统聚类方法只能使用单一种类的变量进行分析，如果数据中同时有这两类变量，则或者只采用连续性变量进行分析，将分类变量用于结果的描述和验证;或者将分类变量按照哑变量的方式拆分成多个二分类变量，然后按照连续性变量的方式进行分析。不过，近年来新发展出的一些智能聚类方法己经可以很好的同时分析这两种变量，两步聚类就是其中的典型代表。 2. 聚类方法的选择传统的聚类方法大致可以分为两大类，一类是层次聚类法 (HierarchicaD ，另一类是重新定位聚类法 (Relocation) ，也称非层次聚类法。各种聚类方法分别有着不同的适用条件，对于不同数据会有不同的表现，很难有统一的标准说明什么时候应该选用什么样的方法。涉及每种方法的细节在本章后面的段落里还会有更加详细的介绍。 3. 距离的定义在聚类分析中最重要的问题就是如何描述差异通常的做法是通过距离或者相似性的方式来描述。统计学家发明了各种各样描述距离和相似性的方法，在 SPSS 提供的距离和相似性度量就有多达30 余种之多。而在统计学中最常用的是距离表达是欧几里得距离，对于两条数据 (X 1 川， ZI )和(町