相似度测度总结汇总.docx

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
相似度测度总结汇总

相似度文献总结相似度有两种基本类别:(1)客观相似度,即对象之间的相似度是对象的多维特征之间的某种函数关系,比如对象之间的欧氏距离;(2)主观相似度,即相似度是人对研究对象的认知关系,换句话说,相似度是主观认知的结果,它取决于人及其所处的环境,主观相似度符合人眼视觉需求,带有一定的模糊性[13]。客观相似度客观相似度可分为距离测度、相似测度、匹配测度。它们都是衡量两对象客观上的相近程度。客观相似度满足下面的公理,假设对象 A与B 的相似度判别为,有:自相似度是一个常量:所有对象的自相似度是一个常数,通常为 1,即极大性:所有对象的自相似度均大于它与其他对象间的相似度,即。(3) 对称性:两个对象间的相似度是对称的,即。(4) 唯一性:,当且仅当。距离测度这类测度以两个矢量矢端的距离为基础,因此距离测度值是两矢量各相应分量之差的函数。设表示两个矢量,计算二者之间距离测度的具体方式有多种,最常用的有:欧氏距离:Euclidean Distance-based Similarity最初用于计算欧几里德空间中两个点的距离,假设 x,y 是 n 维空间的两个点,它们之间的欧几里德距离是:(1.1)当x,y是两个直方图时,该方法可称为直方图匹配法。可以看出,当 n=2 时,欧几里德距离就是平面上两个点的距离。当用欧几里德距离表示相似度,一般采用以下公式进行转换:距离越小,相似度越大。(1.2)范围:[0,1],值越大,说明d越小,也就是距离越近,则相似度越大。说明:由于特征分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关。欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析。优点:简单,应用广泛缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果曼哈顿距离,绝对值距离(街坊距离或 Manhattan 距离):原理:曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果。同欧式距离相似,都是用于多维数据空间距离的测度范围:[0,1],同欧式距离一致,值越小,说明距离值越大,相似度越大。说明:比欧式距离计算量少,性能相对高。(1.3)切氏(Chebyshev)距离(棋盘距离/切比雪夫距离):切比雪夫距离起源于国际象棋中国王的走法,我们知道国际象棋国王每次只能往周围的8格中走一步,那么从棋盘中A格(x1,y1)走到B格(x2,y2)最少需要走几步?(1.3)明氏(Minkowski)距离/闵可夫斯基距离:(1.4)可以看出,(1.1)、(1.2)、(1.3)式实际上是(1.4)式当的特殊情况。在实际中较多地使用欧氏距离。显然,在观测量的量纲取定的条件下,两个矢量越相似,距离就越小,反之亦然。值得注意的是,在使用上述距离测度描述具体对象时,量纲选取不同会改变某特征的判断依据,即改变该特征对判断贡献的大小,严重的可造成错误分类。这是因为改变特征矢量某分量的量纲,进行比较的两个矢量的相应的两个分量的数值也将改变。若变小,则其相应的特征在距离测度中“影响作用比重”将变小,即根据其判断分类的作用变小,反之将增大,这样便不能很好地反映事实。马氏(Mahalanobis)距离是不受量纲影响的。马氏距离(Mahalanobis):马氏距离定义如下:设n维矢量和是矢量集中的两个矢量,它们的马氏距离 d 定义为(1.5)式中,。V的含义是这个矢量集的协方差矩阵的统计量。适用场合:度量两个服从同一分布并且协方差矩阵为C的随机变量的差异程度度量与某一类的均值向量的差异程度,判别样本的归属,此时为类均值向量。优点:独立于分量量纲排除了样本之间的相关性影响缺点:不同的特征不能差别对待,可能夸大弱特征汉明距离(Hamming Distance)在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另一个字符串所需要替换的字符个数。例如:1011101与1001001之间的汉明距离是2。2143896与2233796之间的汉明距离是3。“toned”与“roses”之间的汉明距离是3。巴氏距离(Bhattacharyya)巴氏距离常用于计算直方图间相似度,定义如下: (1.6)其中,x、y为归一化数据向量。Bhattacharyya系数取值在0~1之间,越靠近1,表示两个模型之间相似度越高。如果,x、y向量未归一化,则巴氏系数的计算定义为:(1.7)Hausdorff距离:Hausdorff距离(Hausdorff distance ,HD)是一种定义于两个点集上的最大最小距离,是描述两组点集之间的相似程度的一种量度,x、y之间的Hausdorff距离定义为:(1.8)式中,为x到y的有向

文档评论(0)

ddf55855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档