聚类分析和判别分析-数据分析师.PPT

下载文档 降价啦

6
0
约7.07千字
约 73页
2018-03-29 发布于天津
举报
版权申诉
保障服务

聚类分析和判别分析-数据分析师.PPT

1、本文档共73页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类分析和判别分析-数据分析师

第11章聚类分析与判别分析聚类分析判别分析聚类分析引言相似性度量系统聚类 K-均值聚类聚类分析的SPSS实现引言物以类聚，人以群分。例：中国的民族分成若干类，上市公司分类，等等对于一个数据集，人们既可以对变量（指标）进行分类（称为R型聚类），也可以对观测值（个案，样品）来分类（称为Q型聚类）。这两种聚类在数学上是对称的，没有什么不同。例：哪些少数民族的生存状况更接近？聚类分析需要解决的一个问题如何衡量样本点之间的距离或相似程度？距离，主要用于样品（观测）间相似性度量相似系数，主要用于变量间相似性度量设每个样品有p个指标（变量）。把n个样品看成p维空间中的n个点，则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义。当变量的测量值相差悬殊时，要先进行标准化，以消除计量单位对计算结果的影响。常用的距离的计算方法欧氏距离（Euclidean）平方欧氏距离Squared Euclidean 切比雪夫距离（Chebychev）明考夫斯基距离(明氏距离)** 按q的取值不同可以包括多种距离计算方法。例如：相似系数的计算方法变量间的相似性可以从它们的方向趋同性或“相关性”进行考察， “夹角余弦法”和“相关系数”两种主要度量方法，统称为相似系数。 (1) 夹角余弦* 两变量Xi与Xj看作p维空间的两个向量，这两个向量间的夹角余弦可用下式进行计算显然，∣cos ? ij∣ ? 1。相似系数的计算方法 (2) Pearson相关系数 Pearson相关系数经常用来度量变量间的相似性。变量Xi与Xj的Pearson相关系数定义为显然也有，∣rij∣ ? 1。系统聚类法（分层聚类）hierarchical cluster 开始时，有多少样本点就是多少类。第一步先把最近的两类（点）合并成一类；然后再把剩下的最近的两类合并成一类；这样下去，每次都少一类，直到最后只有一大类为止。显然，越是后来合并的类，距离就越远。需要解决的新问题：如何计算类与类之间的距离？最短距离法最长距离法重心法 Ward法（离差平方和法）等等最短距离最长距离重心法（Centroid clustering):均值点的距离离差平方和法：合并离差平方和变动最小的两个类离差平方和法：合并离差平方和变动最小的两个类红绿（1，2，7，9） 44.75 离差平方和增加44.75－2.5＝42.25 黄绿（4，5，7，9）14.75 离差平方和增加14.75－2.5＝12.25 黄红（1，2，4，5）10 离差平方和增加10－1＝9 故按该方法黄红首先连接。 6个不同民族的聚类:数据表各民族之间的欧氏距离最短距离法举例（1）首先合并G5、G6，再计算新类与其他类之间的距离。（2）根据计算结果合并G4，G7 根据表中的结果合并G2,G3 根据表中的数据合并G1，G9 最后合并成一类聚类结果的谱系聚类图(最短距离法) 藏族哈萨克族维吾尔族朝鲜族蒙古族满族聚类要注意的问题聚类结果受所选择的变量影响。如果去掉一些变量，或者增加一些变量，结果会很不同。从分层聚类的计算机结果可以得到任何可能数量的类。聚类的目的是要使各类距离尽可能地远，而类内点的距离尽可能的近，而且分类结果还要有令人信服的解释。这一点就不是数学可以解决的了。 SPSS系统聚类的实现和结果分析：数据表相关软件操作选择分析－分类－系统聚类把热量、钠含量、酒精、价格选入变量框；把啤酒名选入“标注个案”框。选择“绘制”，选中“树状图”；方法设定在聚类方法框中选择需要的方法；在度量标准框中选择距离的计算方法；在“标准化”框中选择Z得分。输出结果：聚类表冰柱图聚类树形图(SPSS18.0) 图形反映了类间的距离和聚类过程。最短距离法的聚类结果按照不同的聚类方法可能得到完全不同的聚类结果。选择各类较为均衡、易于解释的方法！ SPSS结果分析在开始的操作中，通过相应的选项可以把分类结果存储起来。 K-均值聚类系统聚类法需要计算出不同样品或变量的距离，还要在聚类的每一步都要计算“类间距离”，相应的计算量自然比较大；特别是当样本的容量很大时，需要占据非常大的计算机内存空间，这给应用带来一定的困难。 k-均值聚类（k-means cluster）可以避免上述问题，适用于样本点很多的情况，但要求