- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
K-Means聚类分析 练习2:数据文件练习2.sav为我国31个省市自治区2008年各地区经济发展的数据,利用spss完成K-Means聚类分析(聚为4类)。 (1)分别写出4个类的人均GDP的初始聚类中心及最终聚类中心; (2)北京、上海、安徽和福建这四个省市分别被聚到哪个类中,同时回答这四个省市与各自类别中心的距离; (3)写出操作过程。 将结果写在实验报告上 层次聚类分析 建立数据文件(层次聚类.sav) 层次聚类分析 分析→分类?→系统聚类…打开层次聚类分析对话框, 将分析变量(x1~x6)调入变量:栏中 个案:表示对个案进行分群,即对数据中的每一个样本进行聚类,也称为Q型聚类。 变量:表示对变量进行分群,即对数据中的每一个变量进行聚类,也称为R型聚类。 显示聚类过程中每一步合并的类或观察量,被合并的类或观察量之间的距离,因此,可以根据此表跟踪聚类合并的过程。 显示相互之间的距离的矩阵。 选择此项,会显示层次聚类谱系图。 决定树状图的方向。本例选择水平。 本例选择组间联接 确定计算距离的方法。本例选择欧式距离。 * * * * 层次聚类分析 练习3:数据文件练习3.sav为中、美、俄等七个国家的裁判和一名未经训练的体育爱好者给某体育比赛中选手的评分情况,利用spss完成层次聚类分析(对变量聚类),度量标准选取欧式距离。 (1)分别写出当聚类数目为3、4、5时,七个国家的裁判和体育爱好者被聚类的结果。 (2)写出操作过程。 将结果写在实验报告上 思考题 简述K-Means聚类分析方法的优缺点 谢 谢! * * Department of Medical Informatics Department of Medical Informatics 医学信息分析实习指导——聚类分析 吉林大学公共卫生学院 医学信息学系 实习目的 掌握聚类分析的基础理论知识 熟练应用统计软件进行聚类分析 聚类分析 聚类分析是研究“物以类聚”问题的分析方法。“物以类聚”问题在医学、社会、经济研究中十分常见。 聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析。 聚类分析应用——商业 聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。 聚类分析应用——电子商务 通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助管理者了解自己的客户,向客户提供更合适的服务。 聚类分析应用——医学 利用聚类分析工具可以分析患者的疾病诊断数据,以进行探索性的数据分析,并考察产生的聚类结果的意义。其中糖尿病的分型是聚类分析典型的应用。 聚类分析的算法 划分聚类算法 K-Means聚类、 K-中心点聚类 层次聚类算法 凝聚的与分裂的层次聚类、BIRCH、Chameleon 基于密度的聚类算法 DBSCAN、OPTICS、DENCLUE 基于网格的聚类算法 STING、CLIQUE 划分聚类算法——K-Means聚类 K-Means聚类也称快速聚类,属于划分聚类算法。它得到的聚类结果,每个样本点都唯一属于一个类,而且聚类变量为数值型。 K-Means聚类主要涉及两个方面的问题:第一,如何测度样本的“亲疏程度”;第二,如何进行聚类。 划分聚类算法——K-Means聚类 如何测度样本的“亲疏程度” K-Means聚类采用欧氏距离(Euclidian distance)来测度数据之间的差异程度,即数据点x和y的p个变量值之差的平方和的平方根,数学定义为: 划分聚类算法——K-Means聚类 例如计算4号和6号的欧氏距离: [(21-20)2+(23-23)2+(22-22)2]? =1 应聘者 1 2 3 4 5 6 7 8 9 10 X 28 18 11 21 26 20 16 14 24 22 Y 29 23 22 23 29 23 22 23 29 27 Z 28 18 16 22 26 22 22 24 24 24 划分聚类算法——K-Means聚类 练习1:对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,请分别计算出应聘者1和3,2和4,5和7 的欧式距离。 结果写在实验报告上 应聘者 1 2 3 4 5 6 7 8 9 10 X 28 18 11 21 26 20 16 14 24 22 Y 29 23 22 23 29 23 22 23 29 27 Z 28 18 16 22 26 22 22 24 24 24 划分聚类算法——K-
文档评论(0)