BM算法原理.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BM算法原理.doc

BM算法是一种精确字符串匹配算法(区别于模糊匹配)。 ? ? BM算法采用从右向左比较 的方法,同时应用到了两种启发式规则,即坏字符规则 和好后缀规则 ,来决定向右跳跃的距离。 ? ? BM算法的基本流程:?设文本串T,模式串为P。首先将T与P进行左对齐,然后进行从右向左比较 ,如下图所示: ??? ???若是某趟比较不匹配时,BM算法就采用两条启发式规则,即坏字符规则 和好后缀规则 ,来计算模式串向右移动的距离,直到整个匹配过程的结束。 ????????? ??? 下面,来详细介绍一下坏字符规则 和好后缀规则 。 ????首先,诠释一下坏字符和好后缀的概念。 ??? 请看下图: ??? ???? 图中,第一个不匹配的字符(红色部分)为坏字符,已匹配部分(绿色)为好后缀。 ???? ??? 1)坏字符规则(Bad Character): ?????????在BM算法从右向左扫描的过程中,若发现某个字符x不匹配,则按如下两种情况讨论: ?????????????? i.? 如果字符x在模式P中没有出现,那么从字符x开始的m个文本显然不可能与P匹配成功,直接全部跳过该区域即可。 ?????????????? ii. 如果x在模式P中出现,则以该字符进行对齐。 ? ???????? 用数学公式表示,设Skip(x)为P右移的距离,m为模式串P的长度,max(x)为字符x在P中最右位置。 ? ??????????????? ???? ? ???????? 例1: ???????? 下图红色部分,发生了一次不匹配。 ? ??? ????????? ??????? 计算移动距离Skip(c) = 5 - 3 = 2,则P向右移动2位。 ??????? 移动后如下图: ???? ?????? ?? ???????? ??? 2)好后缀规则(Good Suffix): ???????? 若发现某个字符不匹配的同时,已有部分字符匹配成功,则按如下两种情况讨论: ????????????? i.? 如果在P中位置t处已匹配部分P在P中的某位置t也出现,且位置t的前一个字符与位置t的前一个字符不相同,则将P右移使t对应t方才的所在的位置。 ????????????? ii. 如果在P中任何位置已匹配部分P都没有再出现,则找到与P的后缀P相同的P的最长前缀x,向右移动P,使x对应方才P后缀所在的位置。 ? ? ???????? 用数学公式表示,设Shift(j)为P右移的距离,m为模式串P的长度,j 为当前所匹配的字符位置,s为t与t的距离(以上情况i)或者x与P的距离(以上情况ii)。 ?????????? ???????? 以上过程有点抽象,所以我们继续图解。 ?????????例2: ?????????下图中,已匹配部分cab(绿色)在P中再没出现。 ???????? ???????? 再看下图,其后缀T(蓝色)与P中前缀P(红色)匹配,则将P移动到T的位置。 ????????? ???????? 移动后如下图: ???????? ????????? ? ? ????????? 自此,两个规则讲解完毕。 ? ???? 在BM算法匹配的过程中,取SKip(x)与Shift(j)中的较大者作为跳跃的距离。 ???? ???? BM算法预处理时间复杂度为O(m+s),空间复杂度为O(s),s是与P, T相关的有限字符集长度,搜索阶段时间复杂度为O(m·n)。 ???? ?????? 最好情况下的时间复杂度为O(n/m),最坏情况下时间复杂度为O(m·n)。

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档