基于编辑距离算法增量更新介绍.pdfVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
mt2.0基于编辑距离算法增量更新介绍 waynelu(/waynelu) 2014-06 about me 卢勇福 (waynelu) 微博 /waynelu /u/1849616271 github: /luyongfugx /mtjs/mt 提纲 l Mt1.0 chunk算法的问题 l 什么是编辑距离计算 l 编辑距离计算算法具体实现 l 在mt里面编辑距离计算算法 Mt1.0 chunk算法的问题 mt1.0基于分块chunk算法来做增量更新,节省资源 的量取决于块的大小和碎片的大小,无法做到字符 级别的增量更新 什么是编辑距离计算 概念 : Levenshtein Distance (编辑距离) ,编辑 距离即从一个字符串变换到另一个字符 串所需要的最少变化操作步骤 作者 : 俄罗斯科学家Vladimir Levenshtein在 1965年提出这个概念 编辑距离计算算法具体实现 编辑代价定义 : 1.不变 0 2. 替换 1 3.插入 1 4.删除 1 删除 ,替换 ,插入这几种操纵的代价 是1 ,即修改一个字符 ,不变则是0 , 表示没有修改 ,即操作代价是0 编辑距离计算算法具体实现 编辑距离计算公式: edit(i, j):第一个字符串的长度为i 的子串到第二个字符串的 长度为j 的子串的编辑距离 通过动态规划法(dp )得到:   if i == 0 且 j == 0 ,edit(i, j) = 0   if i == 0 且 j 0 ,edit(i, j) = j   if i 0 且j == 0 ,edit(i, j) = i   if i ≥ 1  且 j ≥ 1 edit(i, j) = min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + f(i, j) },当第一个字符串的第i个字符不 等于第二个字符串的第j 个字符时,f(i, j) = 1;否则,f(i, j) = 0 编辑距离计算算法具体实现 以batyu 修改为beauty ,编辑距离为3 (右下 数字): 在mt里面编辑距离计算算法 我们记录每一个编辑步骤(红字 ): 0 :未修改, 1:替换,2:删除,3:插入 在mt里面编辑距离计算算法 从右下脚开始往左上脚遍历 : 0:未修改, 1:替换,2:删除 ,3:插入 删除 :y-1. 替换,相等:x-1,y-1 插入:x-1 在mt里面编辑距离计算算法 得到编辑代价最小的编辑步骤 : 0-3-0-3-0-0-2 (0:未修改, 1:替换,2:删除 ,3: 插入 ) 根据操作步骤和新字符串beauty ,我们可以得到如下 数组 : [ [ 1, 0 ], ‘e’, [ 2, 0 ], ‘u’, [ 3

文档评论(0)

7号仓库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档