- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
K-Means Cluster算法描述 K-Means算法描述: 输入:聚类个数K,以及包含n个数据对象的数据库 输出:满足方差最小标准的K个聚类 处理流程: Step1 从n个数据对象任意选择K个对象作为初始聚类中心; Step2 根据簇中对象的平均值,将每个对象重新赋给最类似的簇; Step3 更新簇的平均值,即计算每个簇中对象的平均值; Step4 循环Step2到Step3直到每个簇类不再发生变化为止, [例]假定我们对A、B、C、D四个样品分别测量两个变量和得到结果见表: 试将以上的样品聚成两类。K 2 第一步:按要求取K 2,为了实施均值法聚类,我们将这些样品随意分成两类,比如(A、B)和(C、D),然后计算这两个聚类的中心坐标, 第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类。对于样品有变动的类,重新计算它们的中心坐标,为下一步聚类做准备。先计算A到两个类的平方距离: 由于B到(A、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)。更新中心坐标如下: 第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,得结果如下: 到现在为止,每个样品都已经分配给距离中心最近的类,因此聚类过程到此结束。最终得到K 2的聚类结果是A独自成一类,B、C、D聚成一类。 实例1:基于K均值聚类分析的星级饭店区域发展水平实证研究 1.K均值聚类分析参数设置 聚类数目设置为 5,将31个省市区星级饭店发展水平分为五类;最大迭代次数设置为 20,收敛准则设置为0.01。 2.K均值聚类分析初始类中心数据 3.迭代记录 4.K均值聚类分析结束中心数据 依据表5的数据,全国31个省市区星级饭店行业发展水平存在着比较明显的分层:第一类:北京;第三类:上海、广东;第五类:江苏、浙江、山东、辽宁;第四类:河北、安徽、福建、河南、湖北、湖南、广西、海南、四川、云南、陕西、新疆;第二类:天津、山西、内蒙古、吉林、黑龙江、江西、重庆、贵州、甘肃、西藏、青海、宁夏。 分层数据基本上与地区经济发展水平和旅游业发展水平相符,北京、上海、广东是中国环渤海经济区、长三角经济区、珠三角经济区的核心区域,星级饭店行业发展水平处于领先水平。 辽宁、山东、江苏、浙江是沿海经济发达地区,星级饭店行业发展水平比较高,第三类基本上是中国GDP位于全国中游或旅游业发展比较有特色的地区,第二类是全国星级饭店行业发展水平较低的区域。 实例2:基于K-均值聚类分析的河北省区域社会经济持续发展等类研究 本文建立了一个区域社会经济可持续发展的评价指标体系,指标分为三级,一级为评价体系,二级为四个分项,人力资源 人口数、人口自然增长率 、科技能力 人才密度指数、专业技术人才数 万人 、区域内社会 医生数、消费价格指数 、经济自身 区域GDP、GDP增长率 表1 。 表2显示是系统自动指定的五个初始类中心点,初始类中心点分别选择以下地区:北京、宁夏、广东、海南、山东,初始类中心点基本上包括了31个省市区的各个层次,具有一定的代表性,但一般情况下不是最好的,要通过迭代过程寻找更好的类中心点代替初始类中心点。 表3给出了五个类中心每次迭代时的变化,第三次迭代后,五个类中心点变化均小于指定的收敛规则(0.01),达到聚类结果的要求,聚类分析结束。 表4显 示 了 五 个 类 的 最 终 聚 类 中 心 ,可 以 看出 ,第 一 类 各 指 数 相 对 来 讲 较 高 ,第 三 类 次 之 ,第二类最低。 5.K均值聚类分析的类成员列表 注:a.由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为.000。当前迭代3。初始中心间的最小距离为座机电话号码378.649。 处理结果在原始数据中会有QCL-1的对应值,它们对应各地区依次为1、2、2、2、1、2、3、3、2、2、3。表3显示了3个类的初始类中心情况,可以看出,第一类的各类指标值总体上是最优的,往下依次为第二类、第三类。表4展示了3个类中心点每次迭代的偏移情况,可知第一次迭代3个类的中心点分别偏移了2.739E9、9.018E9、5.430E9,直到第三次迭代3个类的中心点偏移才达到指定判定标准 0 。表5展示了3个类的最终类中心情况,总体来看,第一类各指标值仍是最优的。表6给出了各类中的样品数目,第一类包括2个地区,第二类包括6个地区,第三类包括3个地区。从QCL-1值对应地区来看,第一类是石家庄、唐山;第二类是承德、张家口、秦皇岛、廊坊、衡水、邢台;第三类是保定、沧州、邯郸。 聚类以物 分群以人 聚类分析 SPSS操作 * 聚类分析 —把对象分类 专业:国际贸易学
文档评论(0)