第3章聚类分析m.ppt

下载文档 降价啦

12
0
约 200页
2016-08-25 发布于湖北
举报
版权申诉
保障服务

第3章聚类分析m.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第3章聚类分析m

Statistics 聚类进度表相似矩阵样品或变量的分类情况 * 定义目标函数 * 求最优分类 * 求最优分类 * 在实际问题中，k通常都是未知的，一般是将k=1,2,???,n的所有最优分割都计算出来，然后再根据问题的特点确定k的数值。 * 例：分析儿童的生长期。有如下的资料是1-11岁的男孩平均每年的增长的重量（公斤）：问男孩的发育可分为几个阶段。这是一个有序样品的聚类问题，用最优分割法计算年龄 1 2 3 4 5 6 7 8 9 10 11 增加重量（公斤） 9.3 1.8 1.9 1.7 1.5 1.3 1.4 2.0 1.9 2.3 2.1 * * * * * * 最小损失函数L[p*(n,k)] n k 2 3 4 5 6 7 8 9 10 3 0.005/2 　　　　　　　　 4 0.02/2 0.005/4 　　　　　　　 5 0.088/2 0.020/5 0.005/5 　　　　　　 6 0.232/2 0.040/5 0.02/6 0.005/6 　　　　　 7 0.280/2 0.040/5 0.025/6 0.010/6 0.005/6 　　　　 8 0.417/2 0.280/8 0.040/8 0.025/8 0.010/8 0.005/8 　　　 9 0.469/2 0.285/8 0.045/8 0.030/8 0.015/8 0.010/8 0.005/8 　　 10 0.802/2 0.367/8 0.127/8 0.045/10 0.030/10 0.015/10 0.010/10 0.005/10 　 11 0.909/2 0.368/8 0.128/8 0.065/10 0.045/11 0.030/11 0.015/11 0.010/11 0.005/11 * （3）确定类的个数。将上表的最后一行作为纵坐标，以k的取值作为横坐标，作出分类个数k与最小损失函数值的曲线图，它表明了损失函数与类个数的关系。由该图可以看到，当分类个数k=2时，损失函数太大，当k≥5时，损失函数相差不多，故以k=3或k=4为宜。 * * （4）求最优分类。当k=3时的最优分类为：当k=4时的最优分类为： ——SPSS聚类分析软件计算及在经济管理中的应用第六节实例分析 * SPSS中的聚类分析 Spss中的聚类功能常用的有两种：快速聚类（迭代过程）： K-Means Cluster 分层聚类（系统聚类）：Hierarchical Cluster * K-Means Cluster原理首先，选择n个数值型变量参与聚类分析，最后要求的聚类数为k个；其次，由系统选择k个(聚类的类数）观测量（也可由用户指定）作为聚类的种子。第三，按照距离这些类中心的距离最小的原则把所有观测量（样品）分派到各类重心所在的类中去。第四，这样每类中可能有若干个样品，计算每个类中各个变量的均值，以此作为第二次迭代的中心；第五，然后根据这个中心重复第三、第四步，直到中心的迭代标准达到要求时，聚类过程结束。 * 下面用饮料例的数据来做k-均值聚类假定要把这16种饮料分成3类。利用SPSS，只叠代了三次就达到目标了（计算机选的种子还可以）。这样就可以得到最后的三类的中心以及每类有多少点 * * 根据需要，可以输出哪些点分在一起。结果是：第一类为饮料1、10；第二类为饮料2、4、8、11、12、13、14；第三类为剩下的饮料3、5、6、7、9、15、16 * SPSS实现(聚类分析) K-均值聚类以数据drink.sav为例，在SPSS中选择Analyze－Classify－K-Menas Cluster，然后把calorie（热量）、caffeine（咖啡因）、sodium（钠）、price（价格）选入Variables, 在Number of Clusters处选择3（想要分的类数），如果想要知道哪种饮料分到哪类，则选Save，再选Cluster Membership等。注意k-均值聚类只能做Q型聚类，如要做R型聚类，需要把数据阵进行转置。 * Hierarchical Cluster聚类分层聚类由两种方法：分解法和凝聚法。分层聚类的功能：即可进行样品的聚类，也可进行变量的聚类。分层聚类的原理：即我们前面介绍过的系统聚类方法的原理和过程。 * Hierarchical Cluster聚类分层聚类的中要进行以下的选择：数据的标准化测度方法的选择：距离方法的选择或相似性、关联程度的选择。聚类方法的选择：即以什么方法聚类，spss中提供了7

您可能关注的文档

文档评论（0）

cc880559 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第3章聚类分析m.ppt