- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析
一、分类
俗语说,物以类聚、人以群分。
当有一个分类指标时,分类比较容易。
但是当有多个指标,要进行分类就不是很容易了。
比如,要想把屮国的县分成若干类,可以按照自然条件来分:考虑降水、土地、 H照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标。
聚类分析概述
聚类分析概述
由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方 法,因为这样会忽视相对重要程度的问题。
所以需要进行多元分类,即聚类分析。
最早的聚类分析是由考古学家在对考古分类屮研究屮发展起来的,同吋乂应用于 昆虫的分类屮,此后又广泛地应用在天气、生物等方面。
对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据屮的列分类), 也可以对观测值(事件,样品)来分类(相当于对数据屮的行分类)。
对变量的聚类称为R型聚类,血对观测值聚类称为Q型聚类。这两种聚类在数 学上是对称的,没有什么不同。
三、聚类中选择变量的要求
和聚类分析的H标密切和关
反映了要分类对象的特征
变量之间不应该高度相关。
如何聚类?
聚类分析就是要找出具有相近程度的点或类聚为一类;
如何衡量这个“相近程度” ?就是要根据“距离”来确定。
这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、 马氏距离…,相似系数也可看作为距离。
第一节距离和相似系数
一、距离什么是距离?xuX21X|2X22
一、距离
什么是距离?
xuX21
X|2X22
Xnl
Xn2
Xlp
X.2p ,即x ={xj
■X叩
nxp
设:%表示第i个样品与第/个样品之间的距离
首先我们看样本数据:一般满足以下四个条件时,就称为聚类:
d,0.对一切i,j;
d”=0,等价于j =丿;
4=切对一切i,j;
d.. dik + 仏,对一切j, ko
P4j(q) = (工
P4j(q) = (工 Kk k=l
Minkowski 距离
当 q=l 吋:dij(l) = ^|xik -xjk,称为绝对距离(Block) k=l
当q=2吋:
当q=2吋:
dij(2) =(£|xik-Xj』)% k=l
称为欧氏距离(Eudidem)
当q=8吋:dij(oo) = maxxik -xkj,称为切比雪夫距离
明氏距离的缺点
距离的大小与各指标的观测单位有关,具有一定的人为性。
例如:对体重和身高进行测量,采川不同单位,其距离测量的结果不同。以欧氏 距离为例。
d】2(2) = {(西一尹了+⑺? 一尹2)
(o, 10)
当长度=cm时:
dAB = J(o-io)2+(i-o)2 = Vioi dCD = J(0-5尸+(10-0)2 =亦
? ? ^AB V dcD
当长度时:
dAR = J(0 -100)2 + (1 - OF = Joo。]
dCD = J(0-50)2+(10-0)2 = J26OO
^AB dcD
改进的方法:对数据进行标准化,然后再计算距离。
另一个缺点:它没有考虑到指标之间的相关性。
改进的方法是:采用马氏距离
马氏距离是1936年由印度数学家:马哈拉比斯由协方差矩阵计算构造的距离。
djj=(Xi—Xj)UXi—XJ
二、相似系数
夹角余弦一cosine
尽管图小AB和CD长度不一样,但形状相似。当长度不是主要才盾时,就可利 用夹角余弦这样的相似系数。
相关系数
也可用相关系数来刻画样品之间的相似关系。
把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。
三、关联测度
主要用来度量聚类变量为分类变量的研究对彖的相似性。
简单匹配系数:是测度二分类变量的,是度量两个案例在所有的聚类变量上答案 相同的情况出现的频率。
雅科比系数:是在简单匹配系数基础上进行的改进,也是度量二分类变量的。
第二节系统聚类法
系统聚类法的步』釆用系统聚类法根据实际情况,确定类和类的个数
系统聚类法的步』
釆用系统聚类法
根据实际情况,确定类和类的个数
二、系统聚类法
1.最短距离法 Nearest Neighbor
Dpq =min6/(x/?xy)
G1
G2
G3
G4 G5
G6
G3
G4
G5
G1
0
G6
0
G2
1
0
1——r
、G3
1.5
0
G3
2.5
1.5
0
戶G4
5
3.5
0
G4
6
5
3.5
0
G5
7
3.5
3.5
0
G5
8
7
5.5
2 0
2.最长距离法-
Furthest Neighbor
Dpq = max d(兀
宀)
G1
G2
G3
G4 G5
G6
G3
G4
G5
G1
0
G6
0
G2
1
0
1——
、G3
2.5
0
G3
2.5
1.5
0
k
戶G4
6
3.5
0
G4
6
5
3.5
0
G5
8
3.5
3.5
0
G5
7
5.5
2
原创力文档


文档评论(0)