聚类分析实验课件.pptVIP

下载本文档

20
0
约3.73千字
约 21页
2015-12-14 发布于湖北
举报
版权申诉

聚类分析实验课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析实验课件.ppt

* * * * 计算步骤与上机实践目录上页下页返回结束在这个数据文件中，我们选择的变量(Variables(s))有Urban（城市人口比例），Lifeexpf（女性平均寿命）、Lifeexpm（男性平均寿命）、Literacy（有读写能力的人所占比例）、Gdp_cap（人均国内生产总值），以Country（国家或地区）来标识(Label Cases)本例中的17个亚洲国家或地区，并以其他5个变量进行Q型聚类分析，即对国家进行聚类。这里我们将原始变量标准化（在Method选项下Transform Values的Standardize空白框内，选择Z Scores），在Statistics选项中选择Agglomeration Schedule，聚类方法选择组内联结法(Within-group linkage)，计算距离选择平方欧氏距离，输出冰柱图和树状聚类图。得到的结果如下： * * 聚类分析计算步骤与上机实践目录上页下页返回结束 * * §3.7 计算步骤与上机实践目录上页下页返回结束 * * §3.7 计算步骤与上机实践目录上页下页返回结束将表3-8的聚合系数利用Excel作出聚合系数随分类数变化曲线,如图3-13. * * §3.7 计算步骤与上机实践目录上页下页返回结束 * * §3.7 计算步骤与上机实践目录上页下页返回结束输出结果中，表3.9表示接近度矩阵，是反映样品之间相似性或者相异性的矩阵。本例中由于计算距离使用的是平方欧氏距离，所以样品间距离越大，样品越相异，如果我们计算距离选择Pearson相关系数，则接近度矩阵是相似性矩阵。由表中矩阵可以看出，Bangladesh（孟加拉国）与Cambodia（柬埔寨）的距离是最小的，因此它们最先聚为一类。图3.9是冰柱图，也是反映样品聚类情况的图，如果按照设定的类数，在那类数的行上从左到右就可以找到各类所包含的样品。比如我们希望分为三类，最左边的类数应选3，每个样品右边都有一列X，如果某个样品右边的X个数少于3，那么它和前面多于3个X的样品聚为一类，如此下去，直到找到全部三类为止。例如，Hong Kong右边的列只有两个X,那么它就与Japan和Singapore聚为一类了，而China右边的列只有一个X，那么从Taiwan到China又被聚为一类，后面样品聚为另一类。 * * §3.7 计算步骤与上机实践目录上页下页返回结束表3.10是反映每一阶段聚类的结果，Coefficients表示聚合系数，第2列和第3列表示聚合的类，比如第一阶段时（Stage=1）第2个样品——Bangladesh（孟加拉国）与第三个样品——Cambodia（柬埔寨）聚为一类，注意这时有16类（17-1=16）。因此某阶段的分类数等于总的样品数减去这个阶段的序号。图3.10是聚合系数随分类数变化的曲线。由图可以看出，当分类数为3或4时，曲线变得比较平缓，这个分类数也符合我们分类的目的。 * * §3.7 计算步骤与上机实践目录上页下页返回结束图3.11是树状聚类图，从图中可以由分类个数得到分类情况。如果我们选择分类数为3，就从距离为10的地方往下切，得到分类结果如下。{1：孟加拉国、柬埔寨、阿富汗、印度、巴基斯坦}；{2：香港、新加坡、日本}；{3：泰国、越南、中国、印度尼西亚、马来西亚、菲律宾、韩国、台湾和朝鲜}。我们可以从经济发展水平和文化教育水平来理解所作的分类。第2类应该是亚洲国家中经济发达程度最高的国家或地区，第1类的经济水平和文教水平都比较低，第3类国家的经济水平和文教水平居中。 * * §3.7 计算步骤与上机实践目录上页下页返回结束 3.7.2 快速聚类法（K-means cluster）。同样我们使用上面的数据文件World95.sav，从中筛选出亚洲国家，试图将亚洲国家按经济和文教水平分为3类。可以使用快速聚类法对样品进行聚类。我们使用的变量有Country（国家或地区）、Urban（城市人口比例），Lifeexpf（女性平均寿命）、Lifeexpm（男性平均寿命）、Literacy（有读写能力的人所占比例）、Gdp_cap（人均国内生产总值），以Country来标识本例中的17个亚洲国家或地区，并以其他5个变量进行Q型聚类分析，即对国家进行聚类。 * * §3.8 社会经济案例研究目录上页下页返回结束例3.5 城镇居民消费水平通常用表3.15中