spss的聚类课题.pptVIP

下载本文档

15
0
约4.07千字
约 61页
2018-03-29 发布于湖北
举报
版权申诉

spss的聚类课题.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

K-Means Cluster算法描述 K-Means算法描述：输入：聚类个数K，以及包含n个数据对象的数据库输出：满足方差最小标准的K个聚类处理流程： Step1 从n个数据对象任意选择K个对象作为初始聚类中心； Step2 根据簇中对象的平均值，将每个对象重新赋给最类似的簇； Step3 更新簇的平均值，即计算每个簇中对象的平均值； Step4 循环Step2到Step3直到每个簇类不再发生变化为止， [例]假定我们对A、B、C、D四个样品分别测量两个变量和得到结果见表：试将以上的样品聚成两类。K 2 第一步：按要求取K 2，为了实施均值法聚类，我们将这些样品随意分成两类，比如（A、B）和（C、D），然后计算这两个聚类的中心坐标，第二步：计算某个样品到各类中心的欧氏平方距离，然后将该样品分配给最近的一类。对于样品有变动的类，重新计算它们的中心坐标，为下一步聚类做准备。先计算A到两个类的平方距离：由于B到（A、B）的距离大于到（C、D）的距离，因此B要分配给（C、D）类，得到新的聚类是（A）和（B、C、D）。更新中心坐标如下：第三步：再次检查每个样品，以决定是否需要重新分类。计算各样品到各中心的距离平方，得结果如下：到现在为止，每个样品都已经分配给距离中心最近的类，因此聚类过程到此结束。最终得到K 2的聚类结果是A独自成一类，B、C、D聚成一类。实例1：基于K均值聚类分析的星级饭店区域发展水平实证研究 1.K均值聚类分析参数设置聚类数目设置为 5，将31个省市区星级饭店发展水平分为五类；最大迭代次数设置为 20，收敛准则设置为0.01。 2.K均值聚类分析初始类中心数据 3.迭代记录 4.K均值聚类分析结束中心数据依据表5的数据，全国31个省市区星级饭店行业发展水平存在着比较明显的分层：第一类：北京；第三类：上海、广东；第五类：江苏、浙江、山东、辽宁；第四类：河北、安徽、福建、河南、湖北、湖南、广西、海南、四川、云南、陕西、新疆；第二类：天津、山西、内蒙古、吉林、黑龙江、江西、重庆、贵州、甘肃、西藏、青海、宁夏。分层数据基本上与地区经济发展水平和旅游业发展水平相符，北京、上海、广东是中国环渤海经济区、长三角经济区、珠三角经济区的核心区域，星级饭店行业发展水平处于领先水平。辽宁、山东、江苏、浙江是沿海经济发达地区，星级饭店行业发展水平比较高，第三类基本上是中国GDP位于全国中游或旅游业发展比较有特色的地区，第二类是全国星级饭店行业发展水平较低的区域。实例2：基于Ｋ-均值聚类分析的河北省区域社会经济持续发展等类研究本文建立了一个区域社会经济可持续发展的评价指标体系,指标分为三级,一级为评价体系,二级为四个分项,人力资源人口数、人口自然增长率、科技能力人才密度指数、专业技术人才数万人、区域内社会医生数、消费价格指数、经济自身区域ＧＤＰ、ＧＤＰ增长率表1 。表2显示是系统自动指定的五个初始类中心点，初始类中心点分别选择以下地区：北京、宁夏、广东、海南、山东，初始类中心点基本上包括了31个省市区的各个层次，具有一定的代表性，但一般情况下不是最好的，要通过迭代过程寻找更好的类中心点代替初始类中心点。表3给出了五个类中心每次迭代时的变化，第三次迭代后，五个类中心点变化均小于指定的收敛规则（0.01），达到聚类结果的要求，聚类分析结束。表4显示了五个类的最终聚类中心，可以看出，第一类各指数相对来讲较高，第三类次之，第二类最低。 5.K均值聚类分析的类成员列表注:ａ.由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为.000。当前迭代3。初始中心间的最小距离为座机电话号码378.649。处理结果在原始数据中会有QCL-1的对应值,它们对应各地区依次为1、2、2、2、1、2、3、3、2、2、3。表3显示了3个类的初始类中心情况,可以看出,第一类的各类指标值总体上是最优的,往下依次为第二类、第三类。表4展示了3个类中心点每次迭代的偏移情况,可知第一次迭代3个类的中心点分别偏移了2.739Ｅ9、9.018Ｅ9、5.430Ｅ9,直到第三次迭代3个类的中心点偏移才达到指定判定标准 0 。表5展示了3个类的最终类中心情况,总体来看,第一类各指标值仍是最优的。表6给出了各类中的样品数目,第一类包括2个地区,第二类包括6个地区,第三类包括3个地区。从QCL-1值对应地区来看,第一类是石家庄、唐山;第二类是承德、张家口、秦皇岛、廊坊、衡水、邢台;第三类是保定、沧州、邯郸。聚类以物分群以人聚类分析 SPSS操作 * 聚类分析 —把对象分类专业：国际贸易学