第8章因子分析与聚类分析(含SPSS).pptVIP

下载本文档

25
0
约1.04万字
约 55页
2016-12-13 发布于重庆
举报
版权申诉

第8章因子分析与聚类分析(含SPSS).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

（三）聚类分析的几点说明1、所选择的变量应符合聚类的要求可根据实际工作经验和所研究问题的特征人为的选择变量，这些变量应该和分析的目标密切相关，反映分类对象的特征。2、各变量的变量值不应有数量级上的差异为了避免对变量单位选择的依赖，数据应当标准化。3、各变量间不应有较强的线性相关关系如果所选变量之间存在较高的线性关系，有两种处理方法：（1）首先进行变量聚类，从每类中选一代表性变量，再进行样本聚类；（2）进行主成分分析或因子分析，降维，使之成为不相关的新变量，再进行样本聚类。二、聚类分析中“亲疏程度”的度量（一）个体间“亲疏程度”的度量聚类分析中，对“亲疏程度”的测度一般有两个角度：第一，个体之间的相似程度；第二，个体之间的差异程度。在SPSS中，对不同度量类型的数据采用了不同的测定亲疏程度的统计量。1、定距型变量个体间距离的计算方式通常有欧式距离（Euclidean distance）、平方欧式距离（Squared Euclidean distance）、夹角余弦（Cosine）距离、相关系数距离（Pearson correlation）、切比雪夫距离（Chebychev：Chebychev）、Block距离（City-Block ）或Manhattan 距离、明考斯基距离（Minkowski）、用户自定义距离（Customized）等8种方法。这些方法分别适用于型聚类和型聚类2、计数变量个体间距离的计算方式如果所涉及的个变量都是计数（Count）的非连续变量，对计数变量的不相似性测度方法，是根据被计算的两个观测量或两个变量总频数计算其不相似性。期望值来自观测量或变量的独立模型。个体间距离的定量通常有卡方距离（Chi-Square measure） Phi 方距离（Phi-Square measure ）两种方式：3、二值变量个体间距离的计算方式如果所涉及的个变量都是二值（Binary）变量，那么个体间距离的定义通常有简单匹配系数（Simple matching和雅科比系数（Jaccard）两种方式。（二）个体与小类、小类与小类间亲疏程度的度量在SPSS中提供了多种度量个体与小类、小类与小类间亲疏程度的方法，如最短距离法（Nearest neighbor）、最长距离法（Furthest neighbor）、中间距离法（Median clustering）、组间平均链锁法（Between-groups linkage）、组内平均链锁法（Within-groups linkage）、重心法（Centroid clustering）、离差平方和法（Ward‘s method）。在一般情况下，用不同的方法聚类的结果是不会完全一致的。在实际应用中，一般采用以下两种处理方法：①根据分类问题本身的专业知识结合实际需要来选择分类方法，并确定分类个数；②多用几种分类方法去作，把结果中的共性提出来，对有争议的样本用判别分析去归类。三、层次聚类在SPSS中的实现1．建立或打开数据文件后，进入Analyze—Classify--Hierachical Cluster Analysis 主对话框，如图8-9所示。图8-9 层次聚类对话框2、把参与分析的变量选到Variable（s）框中。3、把一个字符型变量作为标记变量选到Label Cases框中，它将大大增加聚类分析结果的可读性。4、在Cluster框中选择聚类类型。其中Cases 项表示进行型聚类，Variables 项表示进行型聚类。5、在Display框中选择输出内容。其中Statistics表示输出聚类分析的相关统计量，Plots表示输出聚类分析的相关图形。6、单击Statistics按钮，选择要求输出的统计量，如图8-10所示。图8-10 Statistics 对话框(1) Agglomeration schedule 复选项，表示输出聚类分析的凝聚状态表。(2) Proximity Matrix 复选项，表示输出个体间的距离矩阵。产生什么类型的矩阵取决于在Method 对话框中Measure 栏中的选择。(3) Cluster Membership(类成员栏)选项，显示每个观测量被分派到的类或显示若干步凝聚过程。其中：①None 选项，不显示类成员表，是系统默认值。②Single solution 选项，要求列出聚为一定类数的各观测量所属的类。③Range of solutions 选项，要求列出某个范围中每一步各观测量所属的类。 7、单击Plots 按钮，选择输出统计图表，如图8-11所示。图8-11 Plots 对话框(1) Dendrogram复选项，表示输出聚类分析的树形图。(2) Icicle复选项，表示输出聚类分析的冰柱图，其中：All clusters 选项