- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 聚类分析
5.1聚类分析的基本问题
一、概念
是在样品(变量)之间结构不明确情况下建立一个定量尺度,借以度量样品(变量)间的亲疏程度,从而实现对样品(变量)进行分组的目的。
注:描述亲疏程度有两种尺度
(1)距离:将样品视为P维空间的一个“点”,点与点间可定义距离
将变量视为n维空间的一个“点”,点与点间可定义距离
(2)相似系数:可将样品视为P维空间的一个“向量”,向量间可定义相似系数
二、聚类分析的思路
开始,n个样品(P个变量)各自成类→每次,按样品(变量)间的亲疏程度,将最近(最相似)的两个样品(变量)聚成一类→最终将n个样品(P个变量)聚成一个大类
实际目的是聚成若干类,有利于分析问题
三、聚类分析的种类
按聚类对象分:样品分类 (Q型分类)
变量(指标)分类 (R型分类)
5.2距离和相似系数
一、样品(Q型)聚类的距离和相似系数
(一)距离
1、背景:视一个样品为P维空间中的一个点
2、距离应满足的公认条件
设用表示样品间的距离,则应满足
(1)非负性:
(2)对称性:
(3)三角不等式关系:
3、几种常见的距离定义
(1)明氏距离:
这里
特例:
(2)马氏距离
设n个样品,收集到数据阵,生成协差阵
定义:
(3)兰氏距离
n个样品两两计算距离,生成距离阵
特点:①
②
(二)相似系数
1、背景:视一个样品为P维空间中的一个向量
2、相似系数应满足的公认条件
记为样品的相似系数,应有
(1)
(2)
(3)
3、常用的相似系数
(1)夹角余弦
说明:
①当
②
③一般情况下,
两两计算夹角余弦,生成相似阵:
特点:;
(2)相关系数
生成相关阵
特点:;
二、变量(R型)聚类的距离和相似系数
注:(1)视指标为n维空间的一个点或一个向量
(2)的定义同Q型聚类
5.3 系统聚类方法
提示:
(1)类是样品(或变量)的集合,一般以G表示
(2)关键是如何定义类与类之间距离,不同的距离定义,产生不同的聚类方法
(3)不同聚类方法,聚类过程完全相同。初始,每个样品各自成类→依据选取的距离定义(最常用欧氏距离),选择最近(最相似)的两类聚合,类的个数少一个→重复进行直到所有样品聚成一类。
一、最短距离法
记为样品间的距离,为类间的距离,则
定义:
设己聚合成新类,到其余任一类的距离为:
聚类步骤:
(1)选择样品间距离计算公式,各样品各自成类,计算,生成距离阵
(2)在的非主对角线上找最小的元素,设为,则把聚成一新类,
(3)按,计算新类到其余任一类的距离,生成新的距离阵
(4)对重复(2)、(3)步,反复进行,直到所有样品聚成一个大类
例5.1 n=5,p=1的数据阵
样品 1
2
3
4
5 1
2
3.5
7
9
解:(1)按欧氏距离计算,生成
(2)在非主对角线上找出最小,将合为, (3)计算
生成
(4)在中找到最小,将合成新类,
计算
生成
重复(2)步,最小,合为
计算
生成
聚类树形图
二、最长距离法
关于、的意义同上
定义:
聚类过程中距离的确定:设己聚合成新类,到其余类的距离为:
例5.1解:
→→
→→
→→
三、中间距离法
聚类过程中距离的确定
(1)
(1)公式导出---利用夹角余弦公式(图示略)
①
②
②×2﹣①得:
∴
(2)聚类步骤同上,但需要用距离的平方
解例5.1
→→
→→
→→
简单记忆法:以最小距离为项点的直角三角形
如
四、离差平方和法(Word法)
设n个样品己聚成k类:
其中含有个样品:,其重心为
类的离差平方和定义为:
所有k类的总离差平方和为:
Ward法的聚类步骤:
1、n个样品各自成类,有,这时
2、在己聚成的n类中,,两两相聚合成新类,并计算,找出,将对应的两类相聚合
3、在余下的n-1类中,重复第2步
五、其它系统聚类方法简介
1、
您可能关注的文档
最近下载
- 科技创新驱动产业升级.pptx VIP
- 二型胶原蛋白肽课件.pptx VIP
- HGT 20614-2009钢制管法兰垫片紧固件选配规定(PN系列).pdf VIP
- 循环系统常见疾病的主要症状和体征.ppt VIP
- 2026年在带头固本培元、增强党性等“五个带头”方面对照检查发言材料与2025年民主、组织生活会自我批评【两篇】.docx VIP
- (年甘肃专升本考试计算机试题.doc VIP
- 大学计算机计算思维与信息素养第5章.pptx VIP
- 地下室顶板专项施工方案稿.doc VIP
- RS Components 电工电料 电动机控制器 SJDE-04APA-OY 使用说明.pdf VIP
- 麻醉科消毒管理制度.docx VIP
原创力文档


文档评论(0)