聚类距离漫谈.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
标准化与正交化是聚类分析的必选项 杜子芳 摘要 聚类分析是三大多元统计分析方法之一,在许多领域都有广泛的应用,特别是在模式识别或无学习分类领域,发挥着不可替代的作用。除谱系聚类的ward方法外,聚类分析的关键依据是样品间距。样品间距完全脱胎于几何中的距离概念,但样品间距在几何距离三角可加性里所隐含的各变量量纲必须一致且必须正交的两个关键特性或许是有意或许是不经意地被模糊了。本文的结论是各变量量纲一致且正交应是聚类分析的强制要求,而主成分分析是正交化的最佳手段,应该成为聚类分析程序相关模块的缺省设置或唯一选项。 聚类分析是三大多元统计分析方法之一,在许多领域都有广泛的应用,特别是在模式识别或无学习分类领域,发挥着不可替代的作用。聚类分析不仅表现活跃,而且分支众多。首先有样品聚类与变量聚类之分,其中样品聚类又有面向大样本量情形的快速聚类与面向样本量不大情形的常规聚类两个分支。对于这其中的常规聚类,还可细分为有序样品聚类与非有序样品聚类,而对于非有序样品聚类,有聚类类数由少而多的分解法与由多而少的归并法的区别。归并法最为常用,也称谱系聚类。 聚类家族人丁兴旺,其共同的基因可以归纳为两个:一是“模型”限于处理数值型变量尤其是非离散变量;二是“模型”的基础除变量聚类少数场合外其余概为距离计算。不妨回顾一下聚类分析的过程与细节,容易知道无论是谱系聚类还是快速聚类,任何场合的距离计算不外乎三种:样品之间的距离、样品到类的距离以及类与类之间的距离。而这些计算的唯一依据是样品之间的距离,简称样品间距,只有谱系聚类的ward方法例外。 距离首先是一个几何概念,其中最为人熟悉的是二维和三维几何空间的欧几里德距离。在其后的发展中,距离在维数、幂次数等方面被推广了,距离被抽象为满足下列性质的一个函数族:(1)非负性,(2)对称性,(3)三角可加性。 值得提醒人们特别关注的是,三角可加性虽然是一种特殊的可加性,但毕竟还是可加性,而可加性意味着几何距离中向量的各分量量纲必须一致;至于可加性前面要加上“三角”做修饰,则意味着几何距离中向量的各分量在笛卡尔坐标系里必须正交。这是几何距离定义中所隐含的两个重要特性。 样品间距完全脱胎于几何中的距离概念,这是毋庸置疑的。但样品间距在几何距离隐含的上述两个关键特性上或许是被人们有意或许是不经意地被模糊了。假如询问学过回归分析的学生,需要进行多重共线性的诊断吗?回答“是的”几乎会百分之百。而假如询问学过聚类分析的学生,聚类分析需要进行量纲不一致和变量不正交的诊断吗?回答是的恐属凤毛麟角。还有一个明证是聚类分析程序中既无量纲一致和变量正交化的独立模块,在内容相关的模块里,缺省设置也不是能使量纲一致和变量正交化的手段选项。 被人们有意或许是不经意地被模糊的两个关键特性,一是几何距离中向量的各分量量纲是一致的,故各分量的量值是可加的,可样品距离中各个变量许多场合量纲并非一致。多元统计分析中关于消除量纲的方法是比较丰富的,主要有标准化变换、极差标准化变换和极差规格化变换三种。但一者人们往往将这些方法与中心化变换和对数变换之类变换方法并列,且对三种消除量纲影响的方法孰优孰劣只字不提,其结果是量纲一致化的必要性被严重地淡化了,以致聚类分析里完全缺少判别分析那种将马氏距离作为距离判别唯一选项的明快。 何况,若记两个p维样品和之间的欧氏距离为: 而相同的两个p维样品之间的统计距离或马氏距离为: 其中为样本协方差矩阵,则正如Richard A.Johnson和Dean W.Wichern所说“但是,没有关于不同类的先验知识。这些样本量就无法计算。由于这个原因,在聚类问题中更倾向于采用欧氏距离”。也就是说,由于“类”在聚类开始的阶段尚不存在,类内的方差无从谈起,所以欧氏距离就替代了似乎更合理的统计距离或马氏距离。 被人们有意或许是不经意地被模糊两个关键特性之二,是几何距离中向量的各分量在笛卡尔坐标系里都是正交的,而样品距离中各变量间往往存在一定程度的相关,很多场合不能满足正交条件,伟大的费歇尔感觉到了这一点,在与聚类分析关联紧密的姊妹方法判别分析中提出了著名的费歇尔变换。费歇尔变换是一种正交变换,可以很好解决不同变量不正交的问题。可惜的是,我们后来者竟然都“灯下黑”,迄今并未有人尝试将此移植到聚类分析。当然有必要指出的是,即使移植了,量纲一致及可加性的要求并不能因此获得满足。 样品间距迄今存在的量纲不一致和变量不正交这两个固有缺陷,第一个缺陷量纲不一致无法真正消除,例如试图将血压与身高的量纲差异消除的努力在科学的范畴里恐怕永远不会成功。通过标准化进行矫正也许是人们能够想到的理想方法,只有规格化可能与其相比。第二个缺陷变量不正交或变量间存在相关性,假如不考虑量纲不一致的影响,其实完全可以真正消除,而且矫正的手段非常简单:正交化

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档