主成分与因子分析.doc

下载文档 降价啦

29
0
约1.01万字
约 30页
2017-01-10 发布于贵州
举报
版权申诉
保障服务

主成分与因子分析.doc

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

主成分与因子分析主成分与因子分析

聚类分析分类俗语说，物以类聚、人以群分。当有一个分类指标时，分类比较容易。但是当有多个指标，要进行分类就不是很容易了。比如，要想把中国的县分成若干类，可以按照自然条件来分：考虑降水、土地、日照、湿度等各方面；也可以考虑收入、教育水准、医疗条件、基础设施等指标。聚类分析概述由于不同的指标项对重要程度或依赖关系是相互不同的，所以也不能用平均的方法，因为这样会忽视相对重要程度的问题。所以需要进行多元分类，即聚类分析。最早的聚类分析是由考古学家在对考古分类中研究中发展起来的，同时又应用于昆虫的分类中，此后又广泛地应用在天气、生物等方面。对于一个数据，人们既可以对变量（指标）进行分类(相当于对数据中的列分类)，也可以对观测值（事件，样品）来分类（相当于对数据中的行分类）。对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的，没有什么不同。聚类中选择变量的要求和聚类分析的目标密切相关反映了要分类对象的特征变量之间不应该高度相关。如何聚类？聚类分析就是要找出具有相近程度的点或类聚为一类；如何衡量这个“相近程度”？就是要根据“距离”来确定。这里的距离含义很广，凡是满足4个条件（后面讲）的都是距离，如欧氏距离、马氏距离…，相似系数也可看作为距离。第一节距离和相似系数距离什么是距离？首先我们看样本数据：一般满足以下四个条件时，就称为聚类：常用距离——明氏距离 Minkowski距离：当q=1时：当q=2时：当q=∞时：明氏距离的缺点距离的大小与各指标的观测单位有关，具有一定的人为性。例如：对体重和身高进行测量，采用不同单位，其距离测量的结果不同。以欧氏距离为例。当长度=cm时：当长度=mm时：改进的方法：对数据进行标准化，然后再计算距离。另一个缺点：它没有考虑到指标之间的相关性。改进的方法是：采用马氏距离马氏距离是1936年由印度数学家：马哈拉比斯由协方差矩阵计算构造的距离。相似系数夹角余弦—cosine 尽管图中AB和CD长度不一样，但形状相似。当长度不是主要矛盾时，就可利用夹角余弦这样的相似系数。相关系数也可用相关系数来刻画样品之间的相似关系。把两两样品的相关系数都计算出来，可形成样品相关系数矩阵。关联测度主要用来度量聚类变量为分类变量的研究对象的相似性。简单匹配系数：是测度二分类变量的，是度量两个案例在所有的聚类变量上答案相同的情况出现的频率。雅科比系数：是在简单匹配系数基础上进行的改进，也是度量二分类变量的。第二节系统聚类法系统聚类法的步骤系统聚类法最短距离法——Nearest Neighbor 最长距离法——Furthest Neighbor 重心法——Centroid Clustering 类平均法——Between-groups Linkage 离差平方和法——Word’s Method 它的思想来源于方差分析此外，还有中间距离法、类内平均法等。第三节 SPSS中的聚类分析与过程例1饮料数据（drink.sav） 16种饮料的热量、咖啡因、钠及价格四种变量 SPSS中的聚类分析 SPSS中的聚类功能常用的有两种：快速聚类（迭代过程）：K-Means Cluster 分层聚类：Hierarchical K-Means Cluster快速聚类 K-Means Cluster原理首先，选择n个数值型变量参与聚类分析，最后要求的聚类数为k个；其次，由系统选择k个(聚类的类数）观测量（也可由用户指定）作为聚类的种子。第三，按照距离这些类中心的距离最小的原则把所有观测量（样品）分派到各类重心所在的类中去。第四，这样每类中可能由若干个样品，计算每个类中各个变量的均值，以此作为第二次迭代的中心；第五，然后根据这个中心重复第三、第四步，直到中心的迭代标准达到要求时，聚类过程结束。 K-Means Cluster聚类过程由Analyze —— Classify —— K-Means Cluster 将各变量放入Variable；输入最后聚类的个数； Hierarchical Cluster聚类分层聚类由两种方法：分解法和凝聚法。分层聚类的功能：即可进行样品的聚类，也可进行变量的聚类。分层聚类的原理：即我们前面介绍过的系统聚类方法的原理和过程。分层聚类的中要进行以下的选择：数据的标准化测度方法的选择：距离方法的选择或相似性、关联程度的选择。聚类方法的选择：即以什么方法聚类，SPSS中提供了7中方法可进行选择。输出图形的选择：树形图或冰柱图。欧氏平方距离、类平均法聚类快速聚类法聚类欧氏平方