网站大量收购闲置独家精品文档,联系QQ:2885784924

聚类分析上机指导.pdf

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析上机指导

聚类分析 内容: • 一、概述 • 二、定量变量的距离(样本) • 三、定性变量的距离(样本) • 四、相似系数(变量的距离) • 五、类与类之间距离的定义 • 六、数据的中心化和标准化 • 七、R示例 • 八、类的个数的确定 一:概述 什么是聚类? • 聚类(Clustering)就是将数据分组成为多 个类(Cluster )。在同一个类内对象之间 具有较高的相似度,不同类之间的对象差 别较大。 • 例1:为研究辽宁、浙江、河南、甘肃、青海五省份1991 年城镇居民生活消费的分布规律,需要用调查资料对这五 个省分类,变量名称及原始数据如下表所示: 表 1991年辽宁等5省城镇居民月均消费数据(单位:元/人) X1 X2 X3 X4 X5 X6 X7 X8 人均粮食 变量支出 副食 烟酒 其它 衣着 日用 燃料 非 省份 茶 副食 品 商 品 辽宁 7.90 39.77 8.94 12.94 19.27 11.05 2.04 13.29 浙江 7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87 河南 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76 甘肃 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35 青海 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81 例2 某高校举办一个培训班,从学员的资料中得 到这样6个变量:性别(x1 ),取值为男和女; 外语语种(x2 ),取值为英、日和俄;专业 (x3 ),取值为统计、会计和金融;职业 (x4 ),取值为教师和非教师;居住处(x5 ), 取值为校内和校外;学历(x6 ),取值为本科 和本科以下。 现有两名学员 (男,英,统计,非教师,校外,本科) (女,英,金融,教师,校外,本科以下) 聚类的基本思想: • 首先定义能度量样品(或变量)间相似程度 (亲 疏关系)的统计量,在此基础上求出各样品(或 变量)间相似程度的度量值;然后按相似程度的 大小,把样品(或变量)逐一归类,关系密切的 聚集到一个小的分类单位,关系疏远的聚和到一 个大的分类单位,直到所有的样品(或变量)都 聚合完毕,把不同的类型一一划分出来,形成一 个由小到大的分类系统;最后根据整个分类系统 画出一副分群图,称之为亲疏关系谱系图。 • ⑴系统聚类法:首先,将个样品看成n类, 然后将性质最接近的两类合并成一个新类, 得到n-1类,合并后重新计算新类与其它类 的距离与相近性测度。这一过程一直继续 直到所有对象归为一类为止,并且类的过 程可用一张谱系聚类图描述。 • ⑵动态聚类法(调优法):首先对个对象 初步分类,然后根据分类的损失函数尽可 能小的原则进行调整,直到分类合理为止。 • ⑶有序样品聚类法 (最优分割法):开始将所有样品 看成一类,然后根据某种最优准则将它们分割为二类、 三类,一直分割到所需的K类为止。这种方法适用于 有序样品的分类问题,故称为有序样品聚类法. • ⑷模糊聚类法:该方法多用于定性变量的分类.利用 模糊集理论来处理分类问题,它对经济领域中具有模 糊特征的两态数据和多态数据具有明显的分类效果. • ⑸图论聚类法:利用图论中最小支撑树的概念来处理 分类问题,创造了独具风格的方法. • ⑹聚类预报法:利用聚类方法处理预报问题,在多元

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档