- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算字符串相似度算法——Levenshtein
博客分类:?
我喜欢的算法
levenshtein相似度编辑距离算法实现?
0.这个算法实现起来很简单
1.百度百科介绍:
Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。
许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。
2.用途
模糊查询
3.实现过程
a.首先是有两个字符串,这里写一个简单的 abc和abe
b.将字符串想象成下面的结构。
A处?是一个标记,为了方便讲解,不是这个表的内容。
?
abc a b c abe 0 1 2 3 a 1 A处 b 2 e 3 c.来计算A处?出得值
它的值取决于:左边的1、上边的1、左上角的0.
按照Levenshtein distance的意思:
上面的值和左面的值都要求加1,这样得到1+1=2。
A处?由于是两个a相同,左上角的值加0.这样得到0+0=0。
这是后有三个值,左边的计算后为2,上边的计算后为2,左上角的计算为0,所以A处?取他们里面最小的0.
d.于是表成为下面的样子
abc a b c abe 0 1 2 3 a 1 0 b 2 B处 e 3 在B处?会同样得到三个值,左边计算后为3,上边计算后为1,在B处?由于对应的字符为a、b,不相等,所以左上角应该在当前值的基础上加1,这样得到1+1=2,在(3,1,2)中选出最小的为B处的值。
e.于是表就更新了
?
abc a b c abe 0 1 2 3 a 1 0 b 2 1 e 3 C处 C处?计算后:上面的值为2,左边的值为4,左上角的:a和e不相同,所以加1,即2+1,左上角的为3。
在(2,4,3)中取最小的为C处?的值。
f.于是依次推得到
a b c 0 1 2 3 a 1 A处?0 D处?1 G处?2 b 2 B处?1 E处?0 H处?1 e 3 C处?2 F处?1 I处?1 ?
I处:?表示abc 和abe 有1个需要编辑的操作。这个是需要计算出来的。
同时,也获得一些额外的信息。
A处:?表示a????? 和a????? 需要有0个操作。字符串一样
B处:?表示ab??? 和a????? 需要有1个操作。
C处:?表示abe? 和a????? 需要有2个操作。
D处:?表示a????? 和ab??? 需要有1个操作。
E处:?表示ab??? 和ab??? 需要有0个操作。字符串一样
F处:?表示abe? 和ab ?? 需要有1个操作。
G处:?表示a????? 和abc?? 需要有2个操作。
H处:?表示ab ?? 和abc ?? 需要有1个操作。
I处:?表示abe ? 和abc ?? 需要有1个操作。
g.计算相似度
先取两个字符串长度的最大值maxLen,用1-(需要操作数除maxLen),得到相似度。
例如abc 和abe 一个操作,长度为3,所以相似度为1-1/3=0.666。
4.代码实现
直接能运行, 复制过去就行。
Java代码??
package?code;??
??
/**?
?*?@className:MyLevenshtein.java?
?*?@classDescription:Levenshtein?Distance?算法实现?
?*?可以使用的地方:DNA分析? 拼字检查? 语音辨识? 抄袭侦测?
?*?@author:donghai.wan?
?*?@createTime:2012-1-12?
?*/??
public?class?MyLevenshtein?{??
??
????public?static?void?main(String[]?args)?{??
????????//要比较的两个字符串??
????????String?str1?=?今天星期四;??
????????String?str2?=?今天是星期五;??
????????levenshtein(str1,str2);??
????}??
??
????/**?
?????*? DNA分析? 拼字检查? 语音辨识? 抄袭侦测?
?????*??
?????*?@createTime?2012-1-12?
?????*/??
????public?static?void?levenshtein(String?str1,String?str2)?{??
????????//计算两个字符串的长度。??
????????int?len1?=?str
您可能关注的文档
最近下载
- 《应用文写作》高职完整全套教学课件.pdf
- 人教版二年级上册数学全册教学设计(配2025年秋新版教材).docx
- 路灯维修工考试题库单选题100道及答案.docx VIP
- TDZJN 80-2022 数据中心用锂离子电池设备产品技术标准.docx
- 2025年教科版一年级《科学》上册全册教案 .pdf VIP
- 唱天瑶 课件接力版音乐五年级上册(共11张PPT)(含音频+视频).pptx VIP
- 数字化驱动下的智慧家庭医生服务报告.pdf VIP
- [工程科技]MODFLOW用户手册中文版.doc
- 苏教版小学一年级数学下学期综合检测试卷 附解析.pdf VIP
- 矿山排水工培训课件视频.pptx VIP
文档评论(0)