- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第7章 聚类分
第七章 聚类分析;2;3;4;5;6;7;8;9;10;11;第二节 相似性的量度 ;一、样品相似性的度量;按q的取值不同又可分成下面的几个式子;欧氏距离是常用的距离,大家都比较熟悉。但是在解决多元数据的分析问题时,欧氏距离就显示出了它的不足之处。一是它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,既使它们的欧氏距离不一定最近;另外,欧氏距离受变量的量纲影响,这对多元数据的处理是不利的。为了克服这方面的不足,可用“马氏距离”的概念。; 2.马氏距离
设Xi与Xj是来自均值向量为? ,协方差为∑ 的总体
G中的p维样品,则两个样品间的马氏距离为
(7.5)
马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是它考虑了观测变量之间的相关性。马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响。将原始数据作线性变换后,马氏距离不变。; 3.兰氏距离
(7.6)
它仅适用于一切Xij0的情况,这个距离也可以克服各个指标之间量纲的影响。这是一个自身标准化的量,由于它对大的奇异值不敏感,它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。; 4.距离选择的原则
一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时,应注意距离公式的选择。; 通常选择距离公式应注意遵循以下的基本原则:
(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。
(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。
(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带???一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。;二、变量相似性的度量;;无论是夹角余弦还是相关系数,它们的绝对值都小于1,作为变量近似性的度量工具,我们把它们统记为cij。当∣cij∣
= 1时,说明变量Xi与Xj完全相似;当∣cij∣近似于1时,说
明变量Xi与Xj非常密切;当∣cij∣ = 0时,说明变量Xi与Xj完
全不一样;当∣cij∣近似于0时,说明变量Xi与Xj差别很大。
据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类内。
在实际聚类过程中,为了计算方便,我们把变量间相似性的度量公式作一个变换为
dij = 1 ? ∣cij∣ (7.9)
或者
dij2 = 1 ? cij2 (7.10)
用表示变量间的距离远近,小的则应先聚成一类,这比较符合人们的一般思维习惯。;第三节 系统聚类分析法 ;一、系统聚类的基本思想;二、类间距离与系统聚类法; 1. 最短距离法
定义类与之间的距离为两类最近样品的距离,即为
(5.11)
设类Gp与类Gq合并成一个新类记为Gr ,则任一类Gk与Gr的距离为
(5.12)
;27;最短距离法进行聚类分析的步骤如下:
(1)定义样品之间距离,计算样品的两两距离,得一距离
阵记为D(0) ,开始每个样品自成
文档评论(0)