- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三讲 聚类分析
第一节 什么是聚类
1.1 聚类就是把所有的观察对象(cases)分类:使性质相近的对象分在同一个类,性质差异较大的对象分在不同的类。这种聚类也叫Q型聚类。本讲内容主要是介绍这种类型的聚类。
1.2 聚类过程中,“性质”由一组变量(variables)代表,把它用一个p维向量表示:
1.3 聚类过程中,两个观察对象和性质的“差异”程度由它们之间的距离dij来度量。
1.4 还有另一种聚类,它是把变量(variables)作为分类对象。 这种聚类用在变量数目比较多,而且相关性比较强的情形。目的是将性质相近的变量聚为同一个类,从中找出代表变量。这种聚类叫R型聚类。本讲在最后一节简要介绍这种聚类方法及应用。
第二节 距离与相似系数
2.1 点(观察值,case)到点的距离
设有两个p维观察值(点):
在聚类分析中,它们之间的距离有以下的不同度量方式:
1.欧氏距离(Euclidian Distance)
2.欧氏距离平方(Squared Euclidian Distance)
这是SPSS系统默认的距离。
3.闵可夫斯基距离(Minkowski)
其中参数q为用户选项。
4.切比雪夫距离(Chebyshev)
5.布洛克距离(Block)
6.自定义距离(Customized)
其中参数q、r为用户选项。
以上距离越小,表示个体和的性质越相近。
2.2 相似系数
1.皮尔逊相似系数(Pearson)
其中的:
2.夹角余弦(Cosine)
相似系数值越大,表示观察对象性质越相近。
2.3 类(group)与类之间的距离
类指观察值的集合。两个类之间的距离,是用这两个类的特殊点之间的距离来定义。
设有两个类:Ga和Gb,它们之间的距离用D(a, b)表示。则有以下方法表示这两个类之间的距离:
1.最短法
2.最长法
3.重心法
称
为类Ga和Gb的重心,其中的na和nb分别是Ga和Gb中包含的观察值的个数。这时
4.类平均法
5.离差平方和法
首先定义类Gs的直径如下:
记Ga的直径为Da,Gb的直径为Db,Ga+b=Ga(Gb的直径为Da+b。则:
第三节 数据的中心化与标准化
在聚类的时候,由于表示聚类特征的变量往往具有不同的量纲,因此聚类前经常要将其数据标准化。标准化后的数据是无量纲的。SPSS系统默认无标准化。
以下假设变量X的观察值为:X1,X2,…,Xn;它的均值和标准差分别记为和S。
3.1 中心化
中心化以后的数据均值为0。
3.2 正规化
易见,正规化以后的数据最小值为0。
3.3 标准化
1.标准差标准化(z-score)
标准差标准化后的数据均值为0,标准差为1。
2.极差标准化
式中的R为观察值的极差。极差标准化后的数据均值为0,极差为1。
3.极差正规化
变换后的数据最小值为0,极差为1。
第四节 系统聚类法(Hierarchical Clustering)
4.1 系统聚类法的算法
1.取每个观察值为一个类;
2.将性质最近的两个类合并为一个类,类的数目减1;
3.如类的数目(2,转2);
4.结束聚类过程。
4.2 系统聚类法举例
设有变量X 的5个观察值:1,2,4.5,6,8。试用系统聚类法聚类。观察值采用Euclidean距离,类间距离采用最短法。
第一步:每个观察值作为一类,共分成5类如下:
G1={1},G2={2},G3={4.5},G4={6},G5={8}
计算它们的距离矩阵M1:
G1 G2 G3 G4 G5 G1 0 G2 1# 0 G3 3.5 2.5 0 G4 5 4 1.5 0 G5 7 6 3.5 2 0 合并距离最小的两个类G1和G2,得G6=G1(G2。重新计算距离矩阵M2:
G3 G4 G5 G6 G3 0 G4 1.5# 0 G5 3.5 2 0 G6 2.5 4 6 0 合并距离最小的两个类G3和G4,得G7=G3(G4。矩阵M3:
G5 G6 G7 G5 0 G6 6 0 G7 2# 2.5 0 合并G5和G7,得G8=G5(G7。矩阵M4:
G6 G8 G6 0 G8 2.5# 0 最后G6和G9合并成G9。聚类过程结束。
4.3 聚类谱系图(Dendrogram) 略。
第五节 系统聚类的不同方法介绍
系统聚类由于使用的类间距离不同,产生了不同的聚类方法。主要方法有:
1.组间平均距离法(Betw
您可能关注的文档
最近下载
- 北师大版八年级数学上册 1.1 探索勾股定理 同步测试(附答案解析).docx VIP
- 冀少版七年级上册生物全册新质教学课件(配2024年秋改版教材).pptx
- 卫生间改造施工组织设计.pdf VIP
- 《结构吊装施工》.pdf VIP
- 2025年中考数学押题:几何图形选填压轴题(含答案).pdf VIP
- 小学英语群文阅读:No Pain, No Gain 教学设计 PPT课件.pptx VIP
- 氢气管线吹扫试压方案.docx VIP
- 正余弦函数的图像和性质导学案.doc VIP
- 2021新教材必修第一册完美题型精讲(同步学习培优120个题型完美讲解).pdf VIP
- 美术五年级上册人美版 第2课 画人像(课件)(14ppt).pptx VIP
文档评论(0)