统计学第四版聚类分析（2011年）PPT.pptVIP

下载本文档

1
0
约9.35千字
约 64页
2018-01-26 发布于境外
举报
版权申诉

统计学第四版聚类分析（2011年）PPT.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计学第四版聚类分析（2011年）PPT

SPSS的输出结果(实例分析) 层次聚类过程的步骤号 SPSS的输出结果(实例分析) 层次聚类过程的步骤号第1列是聚类的步骤号。第2列和第3列给出了每一步被合并的对象(这里是地区) 首先把31个地区各自作为一类(共有31类)。第1步是把距离最近的两个地区21(海南)和地区30(宁夏)合并成一类。在后面的步骤中，对于包含多个样本的新类别，实际上是用类中的一个样本来代表该类别，比如，第2步被合并的是21和地区29(青海)，这里的“21”实际上是指在第1步中被合并的类别，只是用“21”表示21(海南)所在的类别 SPSS的输出结果(实例分析) 层次聚类过程的步骤号第4列给出每一步被合并的两个类之间的聚类系数(即距离)。距离按从小到大排列，越早合并的类距离越近。0.013是地区21(海南)和地区30(宁夏)之间的距离，而0.040是先被合并的第一小类与地区29(青海)之间的距离第5列和第6列表示本步聚类中参与聚类的是原始的样本还是已经合并的小类，0表示本步聚类的是原始的样本，第一次出现在聚类过程中，其他数字则表示第几步聚类生成的小类参与了本步聚类。第7列给出了在每一步中合并形成的新类别下一次将在第几步中与其他类别合并。例如，在第2步中，参与聚类的是第1步形成的小类(21号样本所在的类)和地区29(青海)，第5列的“1”表示21号类是在第1步中形成的小类，而“0”表示地区29(青海)是第一次出现在本步聚类中的原始样本，第7列中的“10”表示这一类将在第10步中与其他类别合并，其余类推 Cluster Membership 分成2类到5类时各地区所属的类别层次聚类的树状图分成两类分成四类最大距离作为相对距离25 ，其余的距离都换算成与之相比的相对距离大小 ? ? ? ? ? ? 层次聚类的应用 (分类汇总) 类别地区地区个数第一类北京，天津，上海 3 第二类河北，辽宁，安徽，福建，河南，湖北，湖南，四川 8 第三类山西，内蒙古，吉林，黑龙江，江西，广西，海南，重庆，贵州，云南，西藏，陕西，甘肃，青海，宁夏，新疆 16 第四类江苏，浙江，山东，广东 4 使用SPSS中的Means过程(计算分类统计量) 注意使用Means过程时可直接在聚类分析的数据中进行，数据表中应包括SPSS以变量名CLU5_1、CLU4_1、 CLU3_1、CLU2_1等保存的结果，然后按下列步骤操作第一步选择【Analyze】下拉菜单，并选择【Compare Means-Means】?主对话框第二步将用于描述的所有变量选入【Dependentlist】，把地区所属的类别号变量选入【Independent list】第三步点击【Options】并选择所需要的统计量，点击【Continue】?主对话框? 【OK】使用Means过程层次聚类的应用 (类别检验) 各类别所属地区的描述统计量层次聚类的应用 (类别检验) 不同类别6项经济指标的方差分析表方差分析 13.3 K-均值聚类 13.3.1 K-均值聚类的基本过程 13.3.2 K-均值聚类的应用 13.3.3 使用聚类方法的注意事项第 13 章聚类分析层次聚类事先不需要确定要分多少类，聚类过程一层层进行，最后得出所有可能的类别结果，研究这根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图，方便使用者直观选择类别，但其缺点是计算量较大，对大批量数据的聚类效率不高 K-均值聚类事先需要确定要分的类别数据，计算量要小得多，效率比层次聚类要高，也被称为快速聚类(quick cluster) K-均值聚类(K-means cluster) 13.3.1 K-均值聚类的基本过程 13.3 K-均值聚类第1步：确定要分的类别数目K 需要研究者自己确定在实际应用中，往往需要研究者根据实际问题反复尝试，得到不同的分类并进行比较，得出最后要分的类别数量第2步：确定K个类别的初始聚类中心要求在用于聚类的全部样本中，选择K个样本作为K个类别的初始聚类中心与确定类别数目一样，原始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑使用SPSS进行聚类时，也可以由系统自动指定初始聚类中心 K-均值聚类(步骤) 第3步：根据确定的K个初始聚类中心，依次计算每个样本到K个聚类中心的距离欧氏距离，并根据距离最近的原则将所有的样本分到事先确定的K个类别中第