述马氏距离欧式距离Tanimoto测度的相同点和不同点演示教学.docVIP

下载本文档

0
0
约2.37千字
约 4页
2020-07-05 发布于浙江
举报
版权申诉

述马氏距离欧式距离Tanimoto测度的相同点和不同点演示教学.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

述马氏距离欧式距离Tanimoto测度的相同点和不同点第三章作业姓名：苏刚学号：1515063004 学院：数学与计算机学院一、述马氏距离、欧式距离、Tanimoto测度的相同点和不同点。 1.欧式距离( Euclidean distance) ? 相当于高维空间内向量说表示的点到点之间的距离。由于特征向量的各分量的量纲不一致，通常需要先对各分量进行标准化，使其与单位无关，比如对身高（cm）和体重（kg）两个单位不同的指标使用欧式距离可能使结果失效。优点：简单,应用广泛(如果也算一个优点的话) 缺点：没有考虑分量之间的相关性,体现单一特征的多个分量会干扰结果。 2.马氏距离( Mahalanobis distance) C=E[(X-X平均)(Y-Y平均)]为该类输入向量X的协方差矩阵.(T为转置符号，E取平均时是样本因此为n-1)适用场合：度量两个服从同一分布并且其协方差矩阵为C的随机变量X与Y的差异程度。度量X与某一类的均值向量的差异程度,判别样本的归属。此时，Y为类均值向量。优点：独立于分量量纲，排除了样本之间的相关性影响。缺点：不同的特征不能差别对待，可能夸大弱特征。 3.Tanimoto系数( 又称广义Jaccard系数) 通常应用于X为布尔向量，即各分量只取0或1的时候。此时，表示的是X,Y的公共特征的占X，Y所占有的特征的比例。马氏距离的计算是建立在总体样本的基础上的，这一点可以从上述协方差矩阵的解释中可以得出，也就是说，如果拿同样的两个样本，放入两个不同的总体中，最后计算得出的两个样本间的马氏距离通常是不相同的，除非这两个总体的协方差矩阵碰巧相同；在计算马氏距离过程中，要求总体样本数大于样本的维数，否则得到的总体样本协方差矩阵逆矩阵不存在，这种情况下，用欧式距离来代替马氏距离，也可以理解为，如果样本数小于样本的维数，这种情况下求其中两个样本的距离，采用欧式距离计算即可。满足了条件总体样本数大于样本的维数，但是协方差矩阵的逆矩阵仍然不存在，比如三个样本在其所处的二维空间平面内共线（如果是大于二维的话，比较复杂）。这种情况下，也采用欧式距离计算。在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的，而所有样本点共线的情况很少，所以在绝大多数情况下，马氏距离是可以顺利计算的，但是马氏距离的计算是不稳定的，不稳定的来源是协方差矩阵，这也是马氏距离与欧式距离的最大差异之处。我们熟悉的欧氏距离虽然很有用，但也有明显的缺点。它将样品的不同属性（即各指标或各变量）之间的差别等同看待，这一点有时不能满足实际要求。马氏距离有很多优点。它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。它的缺点是夸大了变化微小的变量的作用。 Tanimoto 系数，元素的取值可以是实数。用EJ来表示，计算方式如下： EJ(A,B)=(A*B)/(||A||^2+||B||^2-A*B) 其中A、B分别表示为两个向量，集合中每个元素表示为向量中的一个维度，在每个维度上，取值通常是[0, 1]之间的值，A*B表示向量乘积，||A||^2表示向量的模，即 ||A||^2?= sqrt(a1^2 +?a2^2 +?a3^2 + ......)。Tanimoto 系数计算公式中，如果把分母的A*B去掉，并将||A||^2+||B||^2替换为（||A||^2）*（||B||^2），就转成了余弦相似度（cosine similarity）。EJ中每个分量的取值可以是实数，通常在[0, 1]之间。二、构思一个英文字母的识别方法，写出该方法的识别步骤。第一步：图像预处理，首先将图像进行灰度化，将英文字母图像进行灰度化，将图像转化为只包含亮度信息的灰度图像，以达到改善画质和增强对比度的目的。第二步：字符分割及特征提取，在进行上述预处理操作后，将英文字母图像从背景中分离出来，再对图像进行倾斜矫正，采用16*16（使得精确度更高）方格模板，若取每一点为一个特征，则有256个特征值。采用纵向投影法，每个数字的样本需要4096个。第三步：字符识别，在上述过程中，我们已经检测已知手写字母的形状，我们使用这个目标物的形状模板与图像匹配，在约定的某种准则下检测出目标图像，我们将英文字母模板做成16*16的大小，将图像中的字符归一化成16*16后，待匹配图像和英文字母模板是一样大小，直接将引文字母模板和待匹配图像对应像素点值做减操作，找到差值最小的那个模板，认为待匹配图像的值就是该模板的值，即输出相应的英文字母。