第十二章聚类分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十二章聚类分析

第章 第一节 …,xm)和(y1,y2,…,ym),那么d(A,B)= 。 例如:某次收视率调查中的部分数据如表1,则1号被访者和2号被访者的“距离”为:d(A,B)= 表1:原始数据 被访者 年龄(岁) 文化程度(年) 日收看电视时间(分) …… X1 X2 X3 …… 1 25 16 40 …… 2 60 6 120 …… 3 42 12 90 …… …… …… …… …… 600 34 14 150 …… =41,S1=20 =12,S2=5 =90,S3=40 …… 上述测量的距离存在问题:(1)同一个变量单位不同会导致不同的距离;(2)不同变量的度量不一致,无法判断变量值大小和变量的重要程度,从而无法判断距离的意义。因而需要对原始数据进行标准化。 表2:标准化数据 被访者 年龄(岁) 文化程度(年) 日收看电视时间(分) …… X1 X2 X3 …… 1 -0.8 0.8 1.25 …… 2 0.95 -1.2 0.75 …… 3 0.05 0.0 0.00 …… …… …… …… …… 600 -0.35 0.4 1.50 …… =0,S1=1 =0,S2=1 =0,S3=1 …… 2、SPSS聚类分析中提供的距离 (1)欧式距离(EUCLID),等于 (2)欧式距离的平方(SEUCLID),等于变量差2+变量差2+…… (3)曼哈顿距离(BLOCK),等于变量差的绝对值之和 (4)切比雪夫距离(CHEBYCHEV),等于变量差中绝对值最大者 (5)幂距离POWER(p,r),等于变量差的绝对值的p次方之和,再求r方根。 2、相似系数 (1)变量间的相关系数即皮尔逊相关系数; (2)变量间的夹角余弦,即将两变量分别看成n维空间的向量时的夹角余弦值。 相关系数一般针对定距变量,对于定类变量特别是二项变量也可引入虚拟变量后计算相关系数。 例1:假定5个样本(人)具有如下指标:(1)请对个体进行分类;(2)对变量进行分类。 表3:五个人的六种身体特征指标 身高(cm) 体重(公斤) 眼睛形状 鼻子形状 习惯用手 性别 个体1 166 120 单 高 右 女 个体2 175 145 双 低 右 男 个体3 168 135 单 高 右 男 个体4 167 100 双 低 右 女 个体5 174 150 双 低 左 男 解:变量中包含定距和定类变量,可以全部变成虚拟变量(也可将后四个虚拟),令X1= ;X2= ;X3= ; X4= ;X5= ;X6= ,表3可转化为表4: X1 X2 X3 X4 X5 X6 个体1 0 0 0 1 0 1 个体2 1 1 1 0 0 0 个体3 0 1 0 1 0 0 个体4 0 0 1 0 0 1 个体5 1 1 1 0 1 0 (1)根据两个个体共同特征的多少来对个体分类,以欧式距离的平方来进行聚类,个体之间的距离越小越相似,可求得: d2(1,2)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-0)2+(1-0)2=5; d2(1,3)=(0-0)2+(0-1)2+(0-0)2+(1-1)2+(0-0)2+(1-0)2=2; d2(1,4)=(0-0)2+(0-0)2+(0-1)2+(1-0)2+(0-0)2+(1-1)2=2; d2(1,5)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-1)2+(1-0)2=6;同理计算其他距离,得到下表: 表5:5个体间距离 1 2 3 4 5 1 0 2 5 0 3 2 3 0 4 2 3 4 0 5 6 1 4 4 0 根据距离大小,判断相似程度。个体2和5距离最小,最相似。1和3,1和4距离较小,较相似。如果分两类,则可分为{1,5}和{ 1,3,4}。 (2)对特征变量进行分类,先计算两个变量间的相似系数: r12= = =0.6667 同理计算其它相关系数: 表6:六个变量间的相关系数 1 2 3 4 5 6 1 1.0000 2 0.6667 1.0000 3 0.6667 0.1667 1.0000 4 -0.6667 -0.1667 -1.0000 1.0000 5 0.6124 0.4082 0.4082 -0.4082 1.0000 6 -0.6667 -1.0000 -0.1667 0.1667 -0.4082 1.0000 表

文档评论(0)

peain + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档