- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析上机指导
聚类分析
内容:
• 一、概述
• 二、定量变量的距离(样本)
• 三、定性变量的距离(样本)
• 四、相似系数(变量的距离)
• 五、类与类之间距离的定义
• 六、数据的中心化和标准化
• 七、R示例
• 八、类的个数的确定
一:概述
什么是聚类?
• 聚类(Clustering)就是将数据分组成为多
个类(Cluster )。在同一个类内对象之间
具有较高的相似度,不同类之间的对象差
别较大。
• 例1:为研究辽宁、浙江、河南、甘肃、青海五省份1991
年城镇居民生活消费的分布规律,需要用调查资料对这五
个省分类,变量名称及原始数据如下表所示:
表 1991年辽宁等5省城镇居民月均消费数据(单位:元/人)
X1 X2 X3 X4 X5 X6 X7 X8
人均粮食
变量支出 副食 烟酒 其它 衣着 日用 燃料 非
省份 茶 副食 品 商
品
辽宁 7.90 39.77 8.94 12.94 19.27 11.05 2.04 13.29
浙江 7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87
河南 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76
甘肃 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35
青海 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81
例2 某高校举办一个培训班,从学员的资料中得
到这样6个变量:性别(x1 ),取值为男和女;
外语语种(x2 ),取值为英、日和俄;专业
(x3 ),取值为统计、会计和金融;职业
(x4 ),取值为教师和非教师;居住处(x5 ),
取值为校内和校外;学历(x6 ),取值为本科
和本科以下。
现有两名学员
(男,英,统计,非教师,校外,本科)
(女,英,金融,教师,校外,本科以下)
聚类的基本思想:
• 首先定义能度量样品(或变量)间相似程度 (亲
疏关系)的统计量,在此基础上求出各样品(或
变量)间相似程度的度量值;然后按相似程度的
大小,把样品(或变量)逐一归类,关系密切的
聚集到一个小的分类单位,关系疏远的聚和到一
个大的分类单位,直到所有的样品(或变量)都
聚合完毕,把不同的类型一一划分出来,形成一
个由小到大的分类系统;最后根据整个分类系统
画出一副分群图,称之为亲疏关系谱系图。
• ⑴系统聚类法:首先,将个样品看成n类,
然后将性质最接近的两类合并成一个新类,
得到n-1类,合并后重新计算新类与其它类
的距离与相近性测度。这一过程一直继续
直到所有对象归为一类为止,并且类的过
程可用一张谱系聚类图描述。
• ⑵动态聚类法(调优法):首先对个对象
初步分类,然后根据分类的损失函数尽可
能小的原则进行调整,直到分类合理为止。
• ⑶有序样品聚类法 (最优分割法):开始将所有样品
看成一类,然后根据某种最优准则将它们分割为二类、
三类,一直分割到所需的K类为止。这种方法适用于
有序样品的分类问题,故称为有序样品聚类法.
• ⑷模糊聚类法:该方法多用于定性变量的分类.利用
模糊集理论来处理分类问题,它对经济领域中具有模
糊特征的两态数据和多态数据具有明显的分类效果.
• ⑸图论聚类法:利用图论中最小支撑树的概念来处理
分类问题,创造了独具风格的方法.
• ⑹聚类预报法:利用聚类方法处理预报问题,在多元
文档评论(0)