聚类分析实验课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析实验课件.ppt

* * * * 计算步骤与上机实践 目录 上页 下页 返回 结束 在这个数据文件中,我们选择的变量(Variables(s))有Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country(国家或地区)来标识(Label Cases)本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。 这里我们将原始变量标准化(在Method选项下Transform Values的Standardize空白框内,选择Z Scores),在Statistics选项中选择Agglomeration Schedule,聚类方法选择组内联结法(Within-group linkage),计算距离选择平方欧氏距离,输出冰柱图和树状聚类图。得到的结果如下: * * 聚类分析计算步骤与上机实践 目录 上页 下页 返回 结束 * * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 * * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 将表3-8的聚合系数利用Excel作出聚合系数随分类数变化曲线,如图3-13. * * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 * * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 输出结果中,表3.9表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算距离使用的是平方欧氏距离,所以样品间距离越大,样品越相异,如果我们计算距离选择Pearson相关系数,则接近度矩阵是相似性矩阵。由表中矩阵可以看出,Bangladesh(孟加拉国)与Cambodia(柬埔寨)的距离是最小的,因此它们最先聚为一类。 图3.9是冰柱图,也是反映样品聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样品。比如我们希望分为三类,最左边的类数应选3,每个样品右边都有一列X,如果某个样品右边的X个数少于3,那么它和前面多于3个X的样品聚为一类,如此下去,直到找到全部三类为止。例如,Hong Kong右边的列只有两个X,那么它就与Japan和Singapore聚为一类了,而China右边的列只有一个X,那么从Taiwan到China又被聚为一类,后面样品聚为另一类。 * * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 表3.10是反映每一阶段聚类的结果,Coefficients表示聚合系数,第2列和第3列表示聚合的类,比如第一阶段时(Stage=1)第2个样品——Bangladesh(孟加拉国)与第三个样品——Cambodia(柬埔寨)聚为一类,注意这时有16类(17-1=16)。因此某阶段的分类数等于总的样品数减去这个阶段的序号。 图3.10是聚合系数随分类数变化的曲线。由图可以看出,当分类数为3或4时, 曲线变得比较平缓,这个分类数也符合我们分类的目的。 * * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 图3.11是树状聚类图,从图中可以由分类个数得到分类情况。如果我们选择分类数为3,就从距离为10的地方往下切,得到分类结果如下。{1:孟加拉国、柬埔寨、阿富汗、印度、巴基斯坦};{2:香港、新加坡、日本};{3:泰国、越南、中国、印度尼西亚、马来西亚、菲律宾、韩国、台湾和朝鲜}。我们可以从经济发展水平和文化教育水平来理解所作的分类。第2类应该是亚洲国家中经济发达程度最高的国家或地区,第1类的经济水平和文教水平都比较低,第3类国家的经济水平和文教水平居中。 * * §3.7 计算步骤与上机实践 目录 上页 下页 返回 结束 3.7.2 快速聚类法(K-means cluster)。 同样我们使用上面的数据文件World95.sav,从中筛选出亚洲国家,试图将亚洲国家按经济和文教水平分为3类。可以使用快速聚类法对样品进行聚类。 我们使用的变量有Country(国家或地区)、Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。 * * §3.8 社会经济案例研究 目录 上页 下页 返回 结束 例3.5 城镇居民消费水平通常用表3.15中

文档评论(0)

我的文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档