述马氏距离欧式距离Tanimoto测度的相同点和不同点演示教学.docVIP

述马氏距离欧式距离Tanimoto测度的相同点和不同点演示教学.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
述马氏距离欧式距离Tanimoto测度的相同点和不同点 第三章 作业 姓名:苏 刚 学号:1515063004 学院:数学与计算机学院 一、述马氏距离、欧式距离、Tanimoto测度的相同点和不同点。 1.欧式距离( Euclidean distance) ? 相当于高维空间内向量说表示的点到点之间的距离。 由于特征向量的各分量的量纲不一致,通常需要先对各分量进行标准化,使其与单位无关,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。 优点:简单,应用广泛(如果也算一个优点的话) 缺点:没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果。 2.马氏距离( Mahalanobis distance) C=E[(X-X平均)(Y-Y平均)]为该类输入向量X的协方差矩阵.(T为转置符号,E取平均时是样本因此为n-1)适用场合:度量两个服从同一分布并且其协方差矩阵为C的随机变量X与Y的差异程度。度量X与某一类的均值向量的差异程度,判别样本的归属。此时,Y为类均值向量。 优点:独立于分量量纲,排除了样本之间的相关性影响。 缺点:不同的特征不能差别对待,可能夸大弱特征。 3.Tanimoto系数( 又称广义Jaccard系数) 通常应用于X为布尔向量,即各分量只取0或1的时候。此时,表示的是X,Y的公共特征的占X,Y所占有的特征的比例。 马氏距离的计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中, 最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离来代替马氏距离,也可以理 解为,如果样本数小于样本的维数,这种情况下求其中两个样本的距离,采用欧式距离计算即可。 满足了条件总体样本数大于样本的维数,但是协方差矩阵的逆矩阵仍然不存在,比如三个样本在其所处的二维空间平面内共线(如果是大于二维的话,比较复杂)。这种情况下,也采用欧式距离计算。 在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的,而所有样本点共线的情况很少,所以在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。 我们熟悉的欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。马氏距离有很多优点。它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。 Tanimoto 系数,元素的取值可以是实数。用EJ来表示,计算方式如下: EJ(A,B)=(A*B)/(||A||^2+||B||^2-A*B) 其中A、B分别表示为两个向量,集合中每个元素表示为向量中的一个维度,在每个维度上,取值通常是[0, 1]之间的值,A*B表示向量乘积,||A||^2表示向量的模,即 ||A||^2?= sqrt(a1^2 +?a2^2 +?a3^2 + ......)。Tanimoto 系数计算公式中,如果把分母的A*B去掉,并将||A||^2+||B||^2替换为(||A||^2)*(||B||^2),就转成了余弦相似度(cosine similarity)。EJ中每个分量的取值可以是实数,通常在[0, 1]之间。 二、构思一个英文字母的识别方法,写出该方法的识别步骤。 第一步:图像预处理,首先将图像进行灰度化,将英文字母图像进行灰度化,将图像转化为只包含亮度信息的灰度图像,以达到改善画质和增强对比度的目的。 第二步:字符分割及特征提取,在进行上述预处理操作后,将英文字母图像从背景中分离出来,再对图像进行倾斜矫正,采用16*16(使得精确度更高)方格模板,若取每一点为一个特征,则有256个特征值。采用纵向投影法,每个数字的样本需要4096个。 第三步:字符识别,在上述过程中,我们已经检测已知手写字母的形状,我们使用这个目标物的形状模板与图像匹配,在约定的某种准则下检测出目标图像,我们将英文字母模板做成16*16的大小,将图像中的字符归一化成16*16后,待匹配图像和英文字母模板是一样大小,直接将引文字母模板和待匹配图像对应像素点值做减操作,找到差值最小的那个模板,认为待匹配图像的值就是该模板的值,即输出相应的英文字母。

文档评论(0)

151****0277 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档