聚类分析2012年最新版课件.pptVIP

下载本文档

13
0
约4.49千字
约 79页
2017-05-22 发布于河南
举报
版权申诉

聚类分析2012年最新版课件.ppt

1、本文档共79页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* 例子2：土壤样本聚类分析有20个土壤样本，利用含沙量、淤泥含量、粘土含量、有机物、pH值5个变量的数据对这20个土壤样本进行分类。 * 系统聚类 * * * * * * * * K均值聚类 * * * * * * R型聚类的例子裁判为运动员打分 * 组内平均连接法(Within-group linkage) 将两类个体合并为一类后，以合并后类中所有个体之间的平均距离作为类间距离。 * 组内平均连接法（Within-group Linkage) x21? x12? x22? x11? * 重心法(Centroid clustering) 以两类变量均值（重心）之间的距离作为类间距离。 * 重心距离：均值点的距离 ? ? * 中位数法(Median clustering) 以两类变量中位数之间的距离作为类间距离。 * 离差平方和法(Ward’s method) 离差平方和法是由Ward提出的，因此也称为Ward方法。具体做法是，先将n个个体各自成一类，然后每次减少一类，随着类与类的不断聚合，类内的离差平方和必然不断增大，选择使离差平方和增加最小的两类合并，直到所有的个体归为一类为止。 * 主要步骤 1. 选择变量（1）和聚类分析的目的密切相关（2）反映要分类变量的特征（3）在不同研究对象上的值有明显的差异（4）变量之间不能高度相关 2. 数据变换处理为了消除各指标量纲的影响，需要对原始数据进行必要的变换处理。 * 3. 计算聚类统计量聚类统计量是根据变换以后的数据计算得到的一个新数据，它用于表明各样本或变量间的关系密切程度。常用的统计量有距离和相似系数两大类。 * 4. 聚类主要涉及两个问题：（1）选择聚类的方法（2）确定形成的类数 * 5. 聚类结果的解释和证实对聚类结果进行解释是希望对各个类的特征进行准确的描述，给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析，通常的做法是计算各类在各聚类变量上的均值，对均值进行比较，还可以解释各类产生的原因。 * k-均值聚类K-means Cluster K-均值聚类也叫快速聚类要求事先确定分类数运算速度快（特别是对于大样本） * k-均值聚类K-means Cluster 系统首先选择k个聚类中心，根据其他观测值与聚类中心的距离远近，将所有的观测值分成k类；再将k个类的中心（均值）作为新的聚类中心，重新按照距离进行分类；……，这样一直迭代下去，直到达到指定的迭代次数或达到中止迭代的判据要求时，聚类过程结束。 * 聚类分析终止的条件迭代次数：当目前的迭代次数等于指定的迭代次数（SPSS默认为10）时终止迭代。类中心点偏移程度：新确定的类中心点距上个类中心点的最大偏移量小于等于指定的量（SPSS默认为0）时终止聚类。 * 例子1：31个省区小康和现代化指数的聚类分析利用2001年全国31个省市自治区各类小康和现代化指数的数据，对地区进行聚类分析。数据中包括6类指数：综合指数、社会结构指数、经济与技术发展指数、人口素质指数、生活质量指数、法制与治安指数。 * 系统聚类 * Agglomeration schedule：输出聚类过程表 Proximity matrix：输出各个体之间的距离矩阵 Cluster Membership：每个个体类别归属表 * Dendrogram：聚类树形图 Icicle：冰柱图 * * * * * * 如果分为3类第1类：北京、上海、天津第2类：江苏、山东、辽宁、浙江、广东、福建、黑龙江、吉林第3类：其余省区 * 输出各组的统计信息在数据文件中保存分类信息 Data—Split file * * * K均值聚类 Iterate and classify：不断计算新的类中心，替换旧的类中心。 Classify only：根据初始类中心进行聚类，不改变类中心。 * * * * * * * 聚类分析Cluster Analysis * 什么是聚类分析？聚类分析是根据“物以类聚”的道理，对样本或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样本，要求能合理地按各自的特性进行合理的分类，没有任何模式可供参考或依循，即在没有先验知识的情况下进行的。 * 聚类分析的基本思想基本思想是认为研究的样本或变量之间存在着程度不同的相似性（亲疏关系）。根据一批样本的多个观测指标，找出一些能够度量样本或变量之间相似程度的统计量，以这些统计量作为分类的依据，把一些相似程度较大的样本（或指标）聚合为一类，把另外一些相似程度较大的样