聚类分析中常用相似性测度函数综述.docVIP

下载本文档

208
0
约 5页
2017-06-28 发布于福建
举报
版权申诉

聚类分析中常用相似性测度函数综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析中常用相似性测度函数综述

聚类分析中常用相似性测度函数综述　　摘要：聚类分析是一种无监督的机器学习方法，常用于数据挖掘和模式识别领域中。聚类分析中如何度量样本对象之间的相似性一直是模式识别关注的热点。相似性测度函数的选取对于对象或模式的划分归属影响较大。本文通过对聚类分析中常用测度函数公式进行总结，并分析各自特点、优缺点和异同，给模式识别、数据挖掘领用中的研究人员提供更多选择关键词：聚类分析相似性测度函数中图分类号：TP75 文献标识码：A 文章编号：1007-9416（2016）11-0233-01 1 简介聚类分析是通过计算样本彼此间的距离（欧式距离，马式距离，夹角余弦距离等）来估计样本所属类别。它是一种无监督的机器学习方法，常被用于机器学习，模式识别，数据挖掘等领域中。通常我们在做分类实验过程中，往往遇到不同样本间的相似性度量（Similarity Measurement）选择问题，这一问题其实也是模式识别研究中最基本问题。因此，如何描述、判断样本之间或类与类之间的相似程度变得十分重要。对于不同的数据类型，相似性的度量也不同。所以在相似性测度函数选择上需要慎重。如数值型数据中对象间的相似度是指它们在欧氏空间中的互邻程度；而对分类型数据来说，对象间的相似度是则是跟相同属性的个数有关。更重要的是，不同的相似性测度函数对于同一算法的聚类结果往往不同，有的甚至差别很大。有必要根据输入数据的特征，选择一种合适的相似性度量方法。本文的目的就是对聚类中常用的相似性度量公式做一个总结。希望对模式识别、数据挖掘领域中或聚类分析科研人员提供帮助 2 常用相似性测度函数度量聚类样本点之间的亲疏程度常用函数有： 2.1 欧氏距离（Euclidean Distance）欧氏距离源自欧氏空间中两点间的距离，使用较多。设X1、X2为两个n维模式样本，且X1=[x1，x2，…xn]T，X1=[x1，x2，…xn]T则对于n维数据（模式）而言，欧式距离定义为： D（X1，X2）=||X1-X2||=[（x11-x21）2+…+（x1n-x2n）2]1/2 D越小，表示样本越相似。但是各特征向量对应的维上应当是相同的物理量，某些维上物理量单位发生变化，会导致出现不同的聚类结果。对不同的单位可对数据特征标准化处理，能够解决这一单位相关的问题 2.2 曼哈顿距离（Manhattan Distance）曼哈顿距离也称城市街区距离（City Block distance）。设n维向量X=[x1，…xn]表示模式向量，M=[m1，…mn]表示均值向量；C表示该类模式总体的协方差矩阵。则C=E{（X-M）（X-M）T}，马氏距离的平方表达式为D2=（X-M）TC-1（X-M），该距离表示的各分量上模式样本到均值的距离。也就是在各维上模式的分散情况。其优点是排除了模式样本之间的相关影响 2.3 切比雪夫距离（Chebyshev Distance）国际象棋中走动步数最少寻优的度量方法类似于切比雪夫距离。n维向量X1和X2之间的切比雪夫距离定义为： D12=max（|x1i-x2i|），其中i=1，2，…，n 2.4 闵可夫斯基距离（Minkowski Distance）闵氏距离不是一种距离，而是一组距离的定义。n维模式样本向量Xi、Xj之间的闵氏距离表示为：公式中，xik、xjk分别表示Xi、Xj的第k个分量。p是一个变参数。当p=1时，就是曼哈顿距离；当p=2时，就是欧氏距离；当p→∞时，就是切比雪夫距离。闵氏距离可以表示一类距离。所以闵氏距离的缺点包括曼哈顿距离、欧氏距离和切比雪夫距离的缺点 2.5 标准化欧氏距离（Standardized Euclidean distance）该距离是针对欧氏距离的缺点而作的一种改进方案。标准欧氏距离是先将各个分量进行处理。由于标准化变量的数学期望为0，方差为1。所以在得出样本集X的均值为M，标准差为S的情况下，X的“标准化变量”（standardization）可表示为：。经推导，就可以得到两个n维向量Xi、Xj间的标准化欧氏距离公式： 2.6 马氏距离（Mahalanobis Distance）若样本集X，协方差矩阵S，均值μ，则X到μ的马氏距离可表示为：样本Xi与Xj之间的马氏距离为：若S是单位矩阵，则该距离就变成了欧氏距离。若S是对角矩阵，则变成了标准化欧氏距离。马氏距离的最大特点是与量纲无关 2.7 夹角余弦（Cosine）夹角余弦在几何学中可用于衡量向量的方向，而在聚类分析中可用于测度样本之间的相似性。则两个n维样本Xi、Xj之间的夹角余弦可定义为：夹角余弦的取值范