Jaro-Winkler distance.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Jaro-Winkler distance 维基百科,自由的百科全书 ??(重定向自哈罗,温克勒) 跳转到:导航,搜索 在哈拉-克勒距离(温克勒,1999年)是两个字符串之间的相似性措施。这是一个距离度量的哈罗变种(哈罗,1989年,1995年),主要在连锁记录(重复检测)使用面积。越高,哈罗,温克勒的两个字符串,越类似的字符串的距离。在哈拉-克勒距离度量的设计和最适合短字符串,如人的名字。归一分是这样的:0等于没有相似性和1是一个完全匹配。 Contents [隐藏] “1定义 “示例2 “3参见 “4参考 “5外部链接 ?[编辑] Definition 两个给定的字符串中一?哈罗和S2的距离 ? 其中: “M是匹配的字符数(见下文); “T是换位(见下文)。 两名来自S1和S2分别字,被认为是匹配的,只有他们没有做得比 ?。 每个中一字符匹配相比,其在中二中的所有字符。数量的匹配(但不同的顺序排列)除以2字符定义了一些换位。例如。与微量元素箱比较,我们拥有所有的字母匹配,但他们在不同的顺序。通过交换的C和T,我们可以变成板条箱跟踪。这样的两个元素交换称为换位。在德韦恩不愿与匹配的信已经在相同的顺序Lestari,因此没有换位是必要的。 哈拉-克勒距离使用大规模p前缀赋予更有利的评级从字符串匹配的前缀长度的设置开始。由于两个字符串S1和S2,他们的哈罗,温克勒距离DW是: ? 其中: “?哈拉是字符串S1和S2的距离 “是在字符串开始共同前缀长度可达4个字符最多 “P是对的分数多少向上调整为具有共同的前缀。此在温克勒的工作中不断的标准值是p = 0.1常数缩放因子 虽然经常被称为距离度量的哈罗,温克勒的距离,其实并不是一个在其任期的数学意义上公制。 [编辑] Example 请注意,温克勒的“参考”C代码至少在两个从哈罗,温克勒公制公布的结算方式不同。首先是他的一个错字表(adjwt),还有一些额外的长串可选性使用。 鉴于字符串S1和S2玛莎MARHTA我们发现: 的“M = 6 “|中一| = 6 |中二| = 6 “有字不匹配吨/小时及H /吨,导致 哈拉我们找到评分: ? 要找到哈罗,温克勒评分使用标准体重p = 0.1,我们将继续寻找: ? 因此: 干重= 0944 +(3 * 0.1(1?0944))= 0961 鉴于字符串S1和S2德韦恩不愿意,我们发现: 的“M = 4 “|中一| = 6 |中二| = 5 的“T = 0 我们找到一个哈罗评分: ? 要找到哈罗,温克勒评分使用标准体重p = 0.1,我们将继续寻找: ? 因此: 干重= 0822 +(1 * 0.1(1?0822))= 0.84 鉴于字符串S1和S2迪克逊DICKSONX我们发现: X ?口口 D 1的0 0 0 0 余0 1 0 0 0 ? 0 0 0 0 0 亩0 0 0 0 0 卖0 0 0 0 0 ? 0 0 0 1 0 否0 0 0 0 1 ≥0 0 0 0 0 的“M = 4注意两个X的不考虑比赛,因为他们在比赛的第3窗口中。 “|中一| = 5 |中二| = 8 的“T = 0 我们找到一个哈罗评分: ? 要找到哈罗,温克勒评分使用标准体重?= 0.1,我们将继续寻找: “ 因此: 干重= 0767 +(2 * 0.1(1?0767))= 0813 [编辑] See also “编辑距离 “记录连锁 “普查 [编辑] References 哈拉,硕士(1989年)。“在链接方法记录的进步,适用于佛罗里达州坦帕市1985年人口普查。”美国统计学会84(406)杂志:414-20。 “哈拉,硕士(1995年)。”概率连锁大型公共健康数据文件“。在医学14(5-7)统计:491-8。土井:10.1002/sim.4780140510。关键词7792443。 “温克勒,我们(1999年)。”联动的记录和当前的研究问题的国家。“收入部,国内税务局出版R99/04统计。网址:Http:/ / /srd/papers/pdf/rr99 - 04.pdf。 “温克勒,我们(2006年)。”概述学术论文以及目前的研究方向。“研究报告系列,转播。网址:Http:/ / /srd/papers/pdf/rrs2006-02.pdf。 [编辑]外部链接 “执行与在Java LingPipe文件。特征与原来的广泛实施strcmp.c比较。 “Strcmp.c - 最初的C执行该算法的作者 “在开源Java和。NET “PHP的执行情况,GPLv3.0获释 来自“/wiki/Jaro-Wi

文档评论(0)

rfxo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档