第三章聚类分析-课件.pptVIP

下载本文档

24
0
约8.48千字
约 111页
2017-06-16 发布于河南
举报
版权申诉

第三章聚类分析-课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

§ 3.5 模糊聚类分析 § 3.5 模糊聚类分析 3.5.3 模糊聚类分析计算步骤 1.对原始数据进行变换。变换方法通常有标准化变换、极差变换、对数变换等。 § 3.5 模糊聚类分析 § 3.5 模糊聚类分析 § 3.6 K-均值聚类和有序样品的聚类 3.6.1 K-均值法(快速聚类法) 非谱系聚类法是把样品（而不是变量）聚集成K个类的集合。类的个数K可以预先给定，或者在聚类过程中确定。非谱系方法可应用于比系统聚类法大得多的数据组。非谱系聚类法或者一开始就对元素分组，或者从一个构成各类核心的“种子”集合开始。选择好的初始构形，将能免除系统的偏差。一种方法是从所有项目中随机地选择“种子”点或者随机地把元素分成若干个初始类。 § 3.6 K-均值聚类和有序样品的聚类 K-均值法, 又叫快速聚类法，是Macqueen于1967年提出的，其思想是把每个样品聚集到其最近形心（均值）类中去。在它的最简单说明中，这个过程由下列三步所组成：把样品粗略分成K个初始类；进行修改，逐个分派样品到其最近均值的类中去（通常用标准化数据或非标准化数据计算欧氏距离）。重新计算接受新样品的类和失去样品的类的形心（均值）；重复第2步，直到各类无元素进出。 § 3.6 K-均值聚类和有序样品的聚类若不在一开始就粗略地把样品分到K个预先指定的类（第1步），那我们也可以指定K个最初形心（种子点），然后进行第2步。样品的最终聚类在某种程度上依赖于最初的划分，或种子点的选择。为了检验聚类的稳定性，可用一个新的初始分类重新检验整个聚类算法。如最终分类与原来一样，则不必再行计算；否则，须另行考虑聚类算法。见[11] § 3.6 K-均值聚类和有序样品的聚类 3.6.2 有序样品的聚类在前几节的讨论中，分类的样品是相互独立的，分类时彼此是平等的。但在有些实际问题中，要研究的现象与时间的顺序密切相关。例如我们想要研究，从1949年到2003年以来，国民收入可以划分为几个阶段，阶段的划分必须以年份顺序为依据，总的想法是要将国民收入接近的年份划分到一个段内，要完成类似这样的问题的研究，用前几节分类的方法显然是不行了。 § 3.6 K-均值聚类和有序样品的聚类对于这类有序样品的分类，实质上是需要找出一些分点，将它们划分成几个分段，每个分段看作一类，称这种分类为分割。显然，分点在不同位置可以得到不同的分割。这样就存在一个如何决定分点，使达到所谓最优分割的问题。即要求一个分割能使各段内部样品间的差异最小，而各段之间样品的差异最大。这就是决定分割点的依据。 § 3.6 K-均值聚类和有序样品的聚类 1、可能的分类数目 § 3.6 K-均值聚类和有序样品的聚类 2、最优分割法 § 3.6 K-均值聚类和有序样品的聚类 § 3.6 K-均值聚类和有序样品的聚类 § 3.6 K-均值聚类和有序样品的聚类 §3.7 计算步骤与上机实践本书以SPSS15.0和S-Plus2000两种软件来说明前面讲述的几种聚类法的实现过程。具体步骤如下：分析所需要研究的问题，确定聚类分析所需要的多元变量；选择对样品聚类还是对指标聚类；选择合适的聚类方法；选择所需的输出结果。我们将实现过程用逻辑框图表示为图3.8。 §3.7 计算步骤与上机实践 §3.7 计算步骤与上机实践 3.7.1 系统聚类法用SPSS软件自带的数据文件World95.sav来做一个实例分析。为了研究亚洲国家的经济发展水平和文化教育水平，以便于对亚洲国家进行分类研究，这里我们进行聚类分析（在World95.sav数据中筛选出亚洲国家，使用Data→Select Cases→If condition is satisfied中选入region=3）。详细步骤如下： (1) 打开数据。使用菜单中File→Open命令，然后选中要分析的数据World95.sav。 §3.7 计算步骤与上机实践 (2)在菜单中的选项中选择Analyze→Classify命令，Classify命令下有两个聚类分析命令，一是K-means cluster（K--均值聚类），二是Hierarchical cluster（系统聚类法）。这里我们选择系统聚类法。 (3) 在系统聚类法中，我们看到Cluster下有两个选项，Cases（样品聚类或Q型聚类）和Variables (变量聚类或R型聚类)。这里我们选择对样品进行聚类。 (4) Display下面有两个选项，分别是Statistics (统计量)、Plots（输出图形），我们可以选择所需要输出的统计量和图形。 § 3.3 类和类的特征 (2) 最长距离法（farthest neighbor或complete linkage m

您可能关注的文档

文档评论（0）

mwk365 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第三章聚类分析-课件.pptVIP