- 1、本文档共78页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[聚类算法之详解
聚类算法
聚类分析与判别分析
资料来源 :
第一节? 聚类分析统计思想
一、聚类分析的基本思想
1.什么是聚类分析
?????? 俗语说,物以类聚、人以群分。
?????? 当有一个分类指标时,分类比较容易。
?????? 但是当有多个指标,要进行分类就不是很容易了。
?????? 比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;
?????? 也可以考虑收入、教育水准、医疗条件、基础设施等指标;
对于多指标分类,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。
所以需要进行多元分类,即聚类分析。
最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。
对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。
2.R型聚类和Q型聚类
对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。
聚类分析就是要找出具有相近程度的点或类聚为一类;
如何衡量这个“相近程度”?就是要根据“距离”来确定。
这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。
二、如何度量距离的远近:统计距离和相似系数
1.统计距离
距离有点间距离好和类间距离
2.常用距离
统计距离有多种,常用的是明氏距离。
3.相似系数
当对 个指标变量进行聚类时,用相似系数来衡量变量间的关联程度,一般地称 为变量 和 间的相似系数。常用的相似系数有夹角余弦、相关系数等。
夹角余弦:
相关系数:
对于分类变量的研究对象的相似性测度,一般称为关联测度。
第二节? 如何进行聚类分析
一、系统聚类
1.系统聚类的基本步骤
2.最短距离法
3.最长距离法
4.重心法和类平均法
5.离差平方和法
?
二、SPSS中的聚类分析
1、事先要确定分多少类:K均值聚类法;
2、事先不用确定分多少类:分层聚类;
分层聚类由两种方法:分解法和凝聚法。
分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。
分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。
分层聚类的中要进行以下的选择:
数据的标准化
测度方法的选择:距离方法的选择或相似性、关联程度的选择。
聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。
输出图形的选择:树形图或冰柱图。
3、聚类分析要注意的问题。
????? 聚类方法的优缺点:
类平均法比较好,因为与类平均法相比,最短和重心法是“空间浓缩”,即并类的距离范围小,区别类的灵敏度差;
与类平均法相比,其他方法是“空间扩张”,即并类距离范围大,区别类的灵敏度强。
最短距离比最长距离法好
聚类结果中,如果孤类点太多,则说明该中聚类方法不好。
如果从减少孤类来看,一般情况下用Word’s方法最好。
????? 快速聚类法与层次聚类法应用区别
层次聚类法的聚类过程是单方向的,一旦某个样品(case)进入某一类,就不可能从该类出来,再归入其他的类。
而快速聚类法受奇异值、相似测度和不合使得聚类变量的影响较小,对于不合适的初始分类可以进行反复调整.
在聚类分析发展的早期,层次聚类法应用普遍,其中尤以组间类平均法和离差平方和法应用最广。
后来快速聚类方法逐步被人们接受,应用日益增多。现在是两者相结合,取长补短。
首先使用层次聚类法确定分类数,检查是否有奇异值,去除奇异值后,对剩下的案例重新进行分类,把用层次聚类法得到的各个类的重心,作为迭代法的初始分类中心,对样本进行重新调整。 第三节? 判别分析
一、判别分析的基本思路
1.为什么判别?
有一些昆虫的性别很难看出,只有通过解剖才能够判别;
但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。
这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。
2.判别分析(discriminant analysis)的含义
这就是本章要讲的是判别分析。
判别分析和前面的聚类分析有什么不同呢?
主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。
而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。
3.判别分析例子
例10.1 数据disc.sav:企图用一套打分
文档评论(0)