- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
哈罗,温克勒距离.doc
哈罗,温克勒距离
维基百科,自由的百科全书
(重定向自哈罗,温克勒)
跳转到:导航,搜索
在哈罗,温克勒距离(温克勒,1999年)是两个字符串之间的相似性措施。这是一个距离度量的哈罗(哈罗,1989年,1995年)和主要在记录之间的联系(重复检测)地区使用的变体。较高的两个字串的哈罗,温克勒的距离,越类似的字符串。在哈罗,温克勒距离度量的设计和最适合短字符串,如人名。比分是正常化,这样等于没有相似0和1是完全匹配。
内容
[隐藏]
?1定义
?2例
?3参见
?4参考资料
?5外部链接
[编辑]定义
哈罗距离的的DJ的两个指定字符串中一和中二是
其中:
?米是匹配的字符数(见下文);
??是对换的号码(见下文)。
两名分别来自中一和中二的字符,被认为是匹配的,只有他们不是做得比
。
每个字符中一中二比所有的匹配字符。该匹配(人数,但不同的序列排列)除以2字符定义了换位数目。例如。在比较微量板条箱,我们所有的字母匹配,但他们在不同的顺序。通过交换的?和吨,我们可以把板条箱成微量元素。这样的两个元素互换称为换位。在德韦恩与杜安匹配的字母顺序已经在国家统计局,所以没有换的需要。
哈罗,温克勒距离大规模p使用前缀赋予更有利的评级从字符串前缀长度为一组开始比赛。给定两个串中一和中二,它们的哈罗,温克勒距离德国之声是:
其中:
?道琼斯是字符串中一和中二的距离哈罗
?是共同的前缀长度的字符串开始到最高的4个字符
?p是一个多大的成绩不断向上调整比例因子为具有共同的前缀。此在温克勒的工作中不断标准值是P值0.1
虽然通常被称为一个距离度量,哈罗,温克勒的距离,其实并不是在这个词的数学意义上的指标。
[编辑]范例
请注意,温克勒的“参考的”C代码中至少有两个来自哈罗,温克勒度量公布的结算方式不同。首先是他的一个错字表(adjwt使用),还有一些可选的长串额外宽容。
由于字符串中一的玛莎和S2的MARHTA我们发现:
?米= 6
?|中一| = 6
?| S2的的| = 6
?有不匹配的字符是T / H的和的H /吨,导致
我们找到一个哈罗评分:
若要查找哈罗,温克勒评分标准体重使用P值0.1,我们继续寻找:
因此:
德国之声= 0.944 +(3 * 0.1(1 - 0.944))= 0.961
由于字符串中一的德韦恩和S2的杜安我们发现:
?米= 4
?|中一| = 6
?| S2的的| = 5
?吨= 0
我们找到一个哈罗评分:
若要查找哈罗,温克勒评分标准体重使用P值0.1,我们继续寻找:
因此:
德国之声= 0.822 +(1 * 0.1(1 - 0.822))= 0.84
由于字符串中一的迪克逊和S2的的DICKSONX我们发现:
D我x O的的?
D第1 0 0 0 0
我0 1 0 0 0
? 0 0 0 0 0
参数参数K 0 0 0 0 0
S 0的的0 0 0 0
? 0 0 0 1 0
? 0 0 0 0 1
x 0处的0 0 0 0
?米= 4请注意,这两个X的不匹配,因为他们认为外面的三匹配窗口中。
?|中一| = 5
?| S2的的| = 8
?吨= 0
我们找到一个哈罗评分:
若要查找哈罗,温克勒评分使用标准体重D = 0.1,我们继续寻找:
?
因此:
德国之声= 0.767 +(2 * 0.1(1 - 0.767))= 0.813
[编辑]
?莱文斯坦距离
?记录挂钩
?普查
[编辑]
?哈罗,肌肉萎缩症(1989年)。 “以创记录的进展联系起来的方法适用于佛罗里达州的坦帕市1985年人口普查”。美国统计学会杂志84(406):414 - 20。
?哈罗,肌肉萎缩症(1995年)。 “大型公共健康数据文件的概率之间的联系”。医学统计14(5-7):491 - 8。个人主页:10.1002/sim.4780140510。结论7792443。
?温克勒之际,大肠杆菌(1999)。他说:“当前记录的联系和研究问题的国家”。统计司的收入,国内税收署出版R99/04。 /srd/papers/pdf/rr99-04.pdf。
?温克勒之际,大肠杆菌(2006)。 “联动的记录和当前的研究方向概述”。研究报告系列,转播系统。 /srd/papers/pdf/rrs2006-02.pdf。
[编辑]外部链接
?实施及在爪哇LingPipe文件。功能广泛的比较与原strcmp.c实施。
?strcmp.c - 原始?实现了该算法的作者
?开放Java的源代码的执行和。NET中
?PHP中的执行情况,GPLv3.0发布
来自
文档评论(0)