- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Jaro-Winkler distance
维基百科,自由的百科全书
??(重定向自哈罗,温克勒)
跳转到:导航,搜索
在哈拉-克勒距离(温克勒,1999年)是两个字符串之间的相似性措施。这是一个距离度量的哈罗变种(哈罗,1989年,1995年),主要在连锁记录(重复检测)使用面积。越高,哈罗,温克勒的两个字符串,越类似的字符串的距离。在哈拉-克勒距离度量的设计和最适合短字符串,如人的名字。归一分是这样的:0等于没有相似性和1是一个完全匹配。
Contents
[隐藏]
“1定义
“示例2
“3参见
“4参考
“5外部链接
?[编辑] Definition
两个给定的字符串中一?哈罗和S2的距离
?
其中:
“M是匹配的字符数(见下文);
“T是换位(见下文)。
两名来自S1和S2分别字,被认为是匹配的,只有他们没有做得比
?。
每个中一字符匹配相比,其在中二中的所有字符。数量的匹配(但不同的顺序排列)除以2字符定义了一些换位。例如。与微量元素箱比较,我们拥有所有的字母匹配,但他们在不同的顺序。通过交换的C和T,我们可以变成板条箱跟踪。这样的两个元素交换称为换位。在德韦恩不愿与匹配的信已经在相同的顺序Lestari,因此没有换位是必要的。
哈拉-克勒距离使用大规模p前缀赋予更有利的评级从字符串匹配的前缀长度的设置开始。由于两个字符串S1和S2,他们的哈罗,温克勒距离DW是:
?
其中:
“?哈拉是字符串S1和S2的距离
“是在字符串开始共同前缀长度可达4个字符最多
“P是对的分数多少向上调整为具有共同的前缀。此在温克勒的工作中不断的标准值是p = 0.1常数缩放因子
虽然经常被称为距离度量的哈罗,温克勒的距离,其实并不是一个在其任期的数学意义上公制。
[编辑] Example
请注意,温克勒的“参考”C代码至少在两个从哈罗,温克勒公制公布的结算方式不同。首先是他的一个错字表(adjwt),还有一些额外的长串可选性使用。
鉴于字符串S1和S2玛莎MARHTA我们发现:
的“M = 6
“|中一| = 6
|中二| = 6
“有字不匹配吨/小时及H /吨,导致
哈拉我们找到评分:
?
要找到哈罗,温克勒评分使用标准体重p = 0.1,我们将继续寻找:
?
因此:
干重= 0944 +(3 * 0.1(1?0944))= 0961
鉴于字符串S1和S2德韦恩不愿意,我们发现:
的“M = 4
“|中一| = 6
|中二| = 5
的“T = 0
我们找到一个哈罗评分:
?
要找到哈罗,温克勒评分使用标准体重p = 0.1,我们将继续寻找:
?
因此:
干重= 0822 +(1 * 0.1(1?0822))= 0.84
鉴于字符串S1和S2迪克逊DICKSONX我们发现:
X ?口口
D 1的0 0 0 0
余0 1 0 0 0
? 0 0 0 0 0
亩0 0 0 0 0
卖0 0 0 0 0
? 0 0 0 1 0
否0 0 0 0 1
≥0 0 0 0 0
的“M = 4注意两个X的不考虑比赛,因为他们在比赛的第3窗口中。
“|中一| = 5
|中二| = 8
的“T = 0
我们找到一个哈罗评分:
?
要找到哈罗,温克勒评分使用标准体重?= 0.1,我们将继续寻找:
“
因此:
干重= 0767 +(2 * 0.1(1?0767))= 0813
[编辑] See also
“编辑距离
“记录连锁
“普查
[编辑] References
哈拉,硕士(1989年)。“在链接方法记录的进步,适用于佛罗里达州坦帕市1985年人口普查。”美国统计学会84(406)杂志:414-20。
“哈拉,硕士(1995年)。”概率连锁大型公共健康数据文件“。在医学14(5-7)统计:491-8。土井:10.1002/sim.4780140510。关键词7792443。
“温克勒,我们(1999年)。”联动的记录和当前的研究问题的国家。“收入部,国内税务局出版R99/04统计。网址:Http:/ / /srd/papers/pdf/rr99 - 04.pdf。
“温克勒,我们(2006年)。”概述学术论文以及目前的研究方向。“研究报告系列,转播。网址:Http:/ / /srd/papers/pdf/rrs2006-02.pdf。
[编辑]外部链接
“执行与在Java LingPipe文件。特征与原来的广泛实施strcmp.c比较。
“Strcmp.c - 最初的C执行该算法的作者
“在开源Java和。NET
“PHP的执行情况,GPLv3.0获释
来自“/wiki/Jaro-Wi
您可能关注的文档
最近下载
- DB32T 4659.3-2024 医院公共卫生工作规范 第3部分:传染病防治.docx VIP
- CAMDS中文使用手册.pptx VIP
- 铁工电202185号国铁集团关于加强涉铁工程管理的指导意见.pdf
- 新生儿早期基本保健课件.pptx VIP
- 宝石F钻井泥浆泵说明书及图.doc VIP
- 2025宫颈环扎术的护理.pptx VIP
- 人教版信息科技三年级《图片记录瞬间》教学PPT课件.pptx VIP
- EMERSON艾默生 Manual Mounting a DVC6020 DVC6020 Digital Valve Controllers on Fisher Type 585 and 585R Size 100 Actuators, 2 to 3 Inch Travel说明书用户手册.pdf
- AQ 3058-2023 内浮顶储罐检修安全规范.docx VIP
- eHR系统测试打分表.docx VIP
文档评论(0)