计算字符串相似度算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算字符串相似度算法——Levenshtein 博客分类:? 我喜欢的算法 levenshtein相似度编辑距离算法实现? 0.这个算法实现起来很简单 1.百度百科介绍: Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。 许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。 编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。 2.用途 模糊查询 3.实现过程 a.首先是有两个字符串,这里写一个简单的 abc和abe b.将字符串想象成下面的结构。 A处?是一个标记,为了方便讲解,不是这个表的内容。 ? abc a b c abe 0 1 2 3 a 1 A处 b 2 e 3 c.来计算A处?出得值 它的值取决于:左边的1、上边的1、左上角的0. 按照Levenshtein distance的意思: 上面的值和左面的值都要求加1,这样得到1+1=2。 A处?由于是两个a相同,左上角的值加0.这样得到0+0=0。 这是后有三个值,左边的计算后为2,上边的计算后为2,左上角的计算为0,所以A处?取他们里面最小的0. d.于是表成为下面的样子 abc a b c abe 0 1 2 3 a 1 0 b 2 B处 e 3 在B处?会同样得到三个值,左边计算后为3,上边计算后为1,在B处?由于对应的字符为a、b,不相等,所以左上角应该在当前值的基础上加1,这样得到1+1=2,在(3,1,2)中选出最小的为B处的值。 e.于是表就更新了 ? abc a b c abe 0 1 2 3 a 1 0 b 2 1 e 3 C处 C处?计算后:上面的值为2,左边的值为4,左上角的:a和e不相同,所以加1,即2+1,左上角的为3。 在(2,4,3)中取最小的为C处?的值。 f.于是依次推得到 a b c 0 1 2 3 a 1 A处?0 D处?1 G处?2 b 2 B处?1 E处?0 H处?1 e 3 C处?2 F处?1 I处?1 ? I处:?表示abc 和abe 有1个需要编辑的操作。这个是需要计算出来的。 同时,也获得一些额外的信息。 A处:?表示a????? 和a????? 需要有0个操作。字符串一样 B处:?表示ab??? 和a????? 需要有1个操作。 C处:?表示abe? 和a????? 需要有2个操作。 D处:?表示a????? 和ab??? 需要有1个操作。 E处:?表示ab??? 和ab??? 需要有0个操作。字符串一样 F处:?表示abe? 和ab ?? 需要有1个操作。 G处:?表示a????? 和abc?? 需要有2个操作。 H处:?表示ab ?? 和abc ?? 需要有1个操作。 I处:?表示abe ? 和abc ?? 需要有1个操作。 g.计算相似度 先取两个字符串长度的最大值maxLen,用1-(需要操作数除maxLen),得到相似度。 例如abc 和abe 一个操作,长度为3,所以相似度为1-1/3=0.666。 4.代码实现 直接能运行, 复制过去就行。 Java代码?? package?code;?? ?? /**? ?*?@className:MyLevenshtein.java? ?*?@classDescription:Levenshtein?Distance?算法实现? ?*?可以使用的地方:DNA分析?  拼字检查?  语音辨识?  抄袭侦测? ?*?@author:donghai.wan? ?*?@createTime:2012-1-12? ?*/?? public?class?MyLevenshtein?{?? ?? ????public?static?void?main(String[]?args)?{?? ????????//要比较的两个字符串?? ????????String?str1?=?今天星期四;?? ????????String?str2?=?今天是星期五;?? ????????levenshtein(str1,str2);?? ????}?? ?? ????/**? ?????*?  DNA分析?  拼字检查?  语音辨识?  抄袭侦测? ?????*?? ?????*?@createTime?2012-1-12? ?????*/?? ????public?static?void?levenshtein(String?str1,String?str2)?{?? ????????//计算两个字符串的长度。?? ????????int?len1?=?str

文档评论(0)

文档资料 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档