- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BM模式匹配算法原理(图解)
首先,先简单说明一下有关BM算法的一些基本概念。
BM算法是一种精确字符串匹配算法(区别于模糊匹配)。
BM算法采用从右向左比较 的方法,同时应用到了两种启发式规则,即坏字符规则 和好后缀规则 ,来决定向右跳跃的距离。
BM算法的基本流程: 设文本串T,模式串为P。首先将T与P进行左对齐,然后进行从右向左比较 ,如下图所示:
??? 若是某趟比较不匹配时,BM算法就采用两条启发式规则,即坏字符规则 和好后缀规则 ,来计算模式串向右移动的距离,直到整个匹配过程的结束。 ??????
下面,来详细介绍一下坏字符规则 和好后缀规则 。
???? 首先,诠释一下坏字符和好后缀的概念。
?? 请看下图:
???? 图中,第一个不匹配的字符(红色部分)为坏字符,已匹配部分(绿色)为好后缀。
??? 1)坏字符规则(Bad Character):
????????? 在BM算法从右向左扫描的过程中,若发现某个字符x不匹配,则按如下两种情况讨论:
?????????????? i. 如果字符x在模式P中没有出现,那么从字符x开始的m个文本显然不可能与P匹配成功,直接全部跳过该区域即可。
?????????????? ii. 如果x在模式P中出现,则以该字符进行对齐。
???????? 用数学公式表示,设Skip(x)为P右移的距离,m为模式串P的长度,max(x)为字符x在P中最右位置。
??????????????
?????? 例1:
???????? 下图红色部分,发生了一次不匹配。
?????????????
??????? 计算移动距离Skip(c) = 5 - 3 = 2,则P向右移动2位。
??????? 移动后如下图:
??????????
????????
??? 2)好后缀规则(Good Suffix):
???????? 若发现某个字符不匹配的同时,已有部分字符匹配成功,则按如下两种情况讨论:
????????????? i. 如果在P中位置t处已匹配部分P在P中的某位置t也出现,且位置t的前一个字符与位置t的前一个字符不相同,则将P右移使t对应t方才的所在的位置。
????????????? ii. 如果在P中任何位置已匹配部分P都没有再出现,则找到与P的后缀P相同的P的最长前缀x,向右移动P,使x对应方才P后缀所在的位置。
???????? 用数学公式表示,设Shift(j)为P右移的距离,m为模式串P的长度,j 为当前所匹配的字符位置,s为t与t的距离(以上情况i)或者x与P的距离(以上情况ii)。
???????????
?????? 以上过程有点抽象,所以我们继续图解。
?????????例2:
????????? 下图中,已匹配部分cab(绿色)在P中再没出现。
?????????
???????? 再看下图,其后缀T(蓝色)与P中前缀P(红色)匹配,则将P移动到T的位置。
?????????
???????? 移动后如下图:
??????????
????????? 自此,两个规则讲解完毕。
???? 在BM算法匹配的过程中,取SKip(x)与Shift(j)中的较大者作为跳跃的距离。
???? BM算法预处理时间复杂度为O(m+s),空间复杂度为O(s),s是与P, T相关的有限字符集长度,搜索阶段时间复杂度为O(m·n)。
最好情况下的时间复杂度为O(n/m),最坏情况下时间复杂度为O(m·n)。
(二)
所谓精确字符串匹配问题,是在文本 T 中找到所有与查询?P 精确匹配的子串。而 BM 算法可以非常有效地解决这个问题,让时间复杂度降到低于线形的水平。
?? BM 算法主要用了三种巧妙而有效的方法,即从右到左扫描,坏字符规则和好后缀规则。
?? 从右到左扫描的意思是从最后一个字符开始向前匹配,而不是习惯上的从开头向后匹配。
?? 坏字符规则是,从右到左的扫描过程中,发现 Ti 与 Pj 不同,如果P 中存在一个字符 Pk 与 Ti 相同,且 ki 那么就将直接将 P 向右移使 Pk 与 Ti 对齐,然后再从右到左进行匹配。如果 P 中不存在任何与 Ti 相同的字符,则直接将 P 的第一个字符与 Ti 的下一个字符对齐,再从右到左进行比较。
?? 如图:
?? T:???? a b c b a d f t a t e
?? P:???? c b a x a d
?? P:???????? c b a x a d
??
?? 用 R(x) 表示字符 x 在 P 中出现的最右位置,此例中 R(b)=2。
?? 可以看出使用从右到左扫描和坏字符规则可以跳过 T 中的很多位置不去检查,从而使时间复杂度低于线性。
?? 好后缀规则是,从右到左的扫描过程中,发现 Ti
文档评论(0)