- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分与因子分析主成分与因子分析
聚类分析
分类
俗语说,物以类聚、人以群分。
当有一个分类指标时,分类比较容易。
但是当有多个指标,要进行分类就不是很容易了。
比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标。
聚类分析概述
由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。
所以需要进行多元分类,即聚类分析。
最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。
对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。
对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。
聚类中选择变量的要求
和聚类分析的目标密切相关
反映了要分类对象的特征
变量之间不应该高度相关。
如何聚类?
聚类分析就是要找出具有相近程度的点或类聚为一类;
如何衡量这个“相近程度”?就是要根据“距离”来确定。
这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。
第一节 距离和相似系数
距离
什么是距离?
首先我们看样本数据:一般满足以下四个条件时,就称为聚类:
常用距离——明氏距离
Minkowski距离:
当q=1时:
当q=2时:
当q=∞时:
明氏距离的缺点
距离的大小与各指标的观测单位有关,具有一定的人为性。
例如:对体重和身高进行测量,采用不同单位,其距离测量的结果不同。以欧氏距离为例。
当长度=cm时:
当长度=mm时:
改进的方法:对数据进行标准化,然后再计算距离。
另一个缺点:它没有考虑到指标之间的相关性。
改进的方法是:采用马氏距离
马氏距离是1936年由印度数学家:马哈拉比斯由协方差矩阵计算构造的距离。
相似系数
夹角余弦—cosine
尽管图中AB和CD长度不一样,但形状相似。当长度不是主要矛盾时,就可利用夹角余弦这样的相似系数。
相关系数
也可用相关系数来刻画样品之间的相似关系。
把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。
关联测度
主要用来度量聚类变量为分类变量的研究对象的相似性。
简单匹配系数:是测度二分类变量的,是度量两个案例在所有的聚类变量上答案相同的情况出现的频率。
雅科比系数:是在简单匹配系数基础上进行的改进,也是度量二分类变量的。
第二节 系统聚类法
系统聚类法的步骤
系统聚类法
最短距离法——Nearest Neighbor
最长距离法——Furthest Neighbor
重心法——Centroid Clustering
类平均法——Between-groups Linkage
离差平方和法——Word’s Method
它的思想来源于方差分析
此外,还有中间距离法、类内平均法等。
第三节 SPSS中的聚类分析与过程
例1饮料数据(drink.sav)
16种饮料的热量、咖啡因、钠及价格四种变量
SPSS中的聚类分析
SPSS中的聚类功能常用的有两种:
快速聚类(迭代过程):K-Means Cluster
分层聚类:Hierarchical
K-Means Cluster快速聚类
K-Means Cluster原理
首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个;
其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子。
第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去。
第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心;
第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束。
K-Means Cluster聚类过程
由Analyze —— Classify —— K-Means Cluster
将各变量放入Variable;输入最后聚类的个数;
Hierarchical Cluster聚类
分层聚类由两种方法:分解法和凝聚法。
分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。
分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。
分层聚类的中要进行以下的选择:
数据的标准化
测度方法的选择:距离方法的选择或相似性、关联程度的选择。
聚类方法的选择:即以什么方法聚类,SPSS中提供了7中方法可进行选择。
输出图形的选择:树形图或冰柱图。
欧氏平方距离、类平均法聚类 快速聚类法聚类
欧氏平方
文档评论(0)