聚类分析实验.ppt

1 2 3 4 思考题 变量的测度类型有哪些? 系统聚类法的思想是什么? 短距离法是不是一种优良的系统聚类方法,为什么?它适合于什么形态类的聚类? 组间联结法和组内联结法都是计算所有样本对的平均距离,请说明其区别? 变量的测度类型有间隔尺度、顺序尺度、名义尺度 基本思想:设有n个样本,每个样本有m个指标。首先定义样本间的距离。先将这n个样本看成n类,然后将距离最近的两类合并成为新类,并计算新类与其他类的距离,再按最小距离准则并类。这样每次缩小一类,直到并成一类为止。 第一 第二 解答 解答 第三 第四 因为最短距离法的缺点是有链接聚合的趋势,合并之后,新类与其他类的距离缩短,会形成聚类延伸的情况。最短距离法适用于样品散点图(即将每个样品看成m维空间中的点所形成的图形)是条形图,甚至是S形的类。 组间联结法定义两个小类之间的距离为所有样本对间的平均距离,利用了所有样本对距离的信息,克服了最短距离和最长距离中的距离易受极端值影响的弱点。组内联结法是对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对,它与组间联结法相比,它在聚类的每一步都考虑了小类内部相似性的变化。 实验6聚类分析 实验内容一的步骤 将数据粘贴到SPSS中,选择菜单Analyze—Classify—Hierarchical Cluster; . 将call,movecall,fee,computer,mips,net 6个变量选到Variable(s)框中;再将gj-国家作为标记变量,选到Label Cases by框中; 在Cluster框中,选择Cases进行Q型聚类,在Display框中,选择Statistics、Plots 步骤一 步骤二 步骤三 步骤四 输出的树状图 第三类 第二类 第一类 墨西哥,波兰,泰国,智利,巴西,俄罗斯,印度,匈牙利,马来西亚,中国台湾,韩国为一类,它们大部分都是当时的转型国家和亚洲、拉美的发展中国家,属于信息基础设施比较落后的国家 美国为一类,作为世界第一强国,它是信息基础设施很发达的国家。 结果分析 between group法 within group法 ward method法 系统聚类法 考虑到分类与实际情况的出入和分类最优问题,这里通过分别用系统聚类法和K均值聚类分析,其中后者也分别分为两类,三类,四类进行比较。根据2008年全国各地区居民消费数据,将食品,衣着,居住,家庭设备用品及服务,医疗保健,交通和通讯,教育文化娱乐服务,杂项商品和服务着八个项目选为指标. 实验内容二 说明一 说明二 实验内容二 利用系统聚类方法的步骤与上题相似,这里重点说一下K均值聚类分析的步骤 另外,上题中已有相似的已经有相似的利用系统聚类分析方法的树状图及结果,这里也重点展示K均值聚类分析的结果及其分析 操作步骤 步骤三 点击Save按钮,选择Cluster membership和Distance from cluster center,单击Continue按钮返回 步骤一 将数据粘贴到SPSS中,选择菜单Analyze—Classify—K-Means Cluster; 步骤四 点击Options按钮,选中Initial cluster centers和Cluster from cluster center,单击Continue按钮返回 步骤二 将这八个变量移入Variables框中,将标志变量地区移入Label Case by框中,在Method框中选择Iterate classify,在Number of Cluster 实验内容二 结果及分析 结果及分析 结果及分析 结果及分析 三种系统聚类法的结果 分为三类:上海单独为一类;天津,福建,北京,浙江,广东为一类;剩下的省直辖市为一类。 分为三类:上海单独为一类;北京,浙江,广东为一类;剩下的省市直辖市为一类。 分为三类:北京,浙江,广东,上海为一类;安徽,湖北,湖南,广西,海南,四川,云南,西藏,天津,福建,辽宁,重庆,江苏为一类;剩下的省市直辖市为一类。 Between group法 Within group法 ward method Between Group法 Within Group法 Ward method 综合以上各种方法和实际情况用K均值聚类分析方法分的类最为合理, 最终结果 K均值聚类分析法

文档评论(0)

1亿VIP精品文档

相关文档