BM和KMP模式匹配算法原理.docVIP

下载本文档

3
0
约1.84万字
约 28页
2019-06-18 发布于浙江
举报
版权申诉

BM和KMP模式匹配算法原理.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

BM模式匹配算法原理（图解）首先，先简单说明一下有关BM算法的一些基本概念。 BM算法是一种精确字符串匹配算法（区别于模糊匹配）。 BM算法采用从右向左比较的方法，同时应用到了两种启发式规则，即坏字符规则和好后缀规则，来决定向右跳跃的距离。 BM算法的基本流程: 设文本串T，模式串为P。首先将T与P进行左对齐，然后进行从右向左比较，如下图所示: ??? 若是某趟比较不匹配时，BM算法就采用两条启发式规则，即坏字符规则和好后缀规则，来计算模式串向右移动的距离，直到整个匹配过程的结束。 ?????? 下面，来详细介绍一下坏字符规则和好后缀规则。 ???? 首先，诠释一下坏字符和好后缀的概念。 ?? 请看下图： ???? 图中，第一个不匹配的字符（红色部分）为坏字符，已匹配部分（绿色）为好后缀。 ??? 1）坏字符规则（Bad Character）： ????????? 在BM算法从右向左扫描的过程中，若发现某个字符x不匹配，则按如下两种情况讨论： ?????????????? i. 如果字符x在模式P中没有出现，那么从字符x开始的m个文本显然不可能与P匹配成功，直接全部跳过该区域即可。 ?????????????? ii. 如果x在模式P中出现，则以该字符进行对齐。 ???????? 用数学公式表示，设Skip(x)为P右移的距离，m为模式串P的长度，max(x)为字符x在P中最右位置。 ?????????????? ?????? 例1： ???????? 下图红色部分，发生了一次不匹配。 ????????????? ??????? 计算移动距离Skip(c) = 5 - 3 = 2，则P向右移动2位。 ??????? 移动后如下图： ?????????? ???????? ??? 2）好后缀规则（Good Suffix）： ???????? 若发现某个字符不匹配的同时，已有部分字符匹配成功，则按如下两种情况讨论： ????????????? i. 如果在P中位置t处已匹配部分P在P中的某位置t也出现，且位置t的前一个字符与位置t的前一个字符不相同，则将P右移使t对应t方才的所在的位置。 ????????????? ii. 如果在P中任何位置已匹配部分P都没有再出现，则找到与P的后缀P相同的P的最长前缀x，向右移动P，使x对应方才P后缀所在的位置。 ???????? 用数学公式表示，设Shift(j)为P右移的距离，m为模式串P的长度，j 为当前所匹配的字符位置，s为t与t的距离（以上情况i）或者x与P的距离（以上情况ii）。 ??????????? ?????? 以上过程有点抽象，所以我们继续图解。 ?????????例2： ????????? 下图中，已匹配部分cab（绿色）在P中再没出现。 ????????? ???????? 再看下图，其后缀T（蓝色）与P中前缀P（红色）匹配，则将P移动到T的位置。 ????????? ???????? 移动后如下图： ?????????? ????????? 自此，两个规则讲解完毕。 ???? 在BM算法匹配的过程中，取SKip(x)与Shift(j)中的较大者作为跳跃的距离。 ???? BM算法预处理时间复杂度为O（m+s），空间复杂度为O(s)，s是与P, T相关的有限字符集长度，搜索阶段时间复杂度为O(m·n)。最好情况下的时间复杂度为O(n/m)，最坏情况下时间复杂度为O(m·n)。 (二) 所谓精确字符串匹配问题，是在文本 T 中找到所有与查询?P 精确匹配的子串。而 BM 算法可以非常有效地解决这个问题，让时间复杂度降到低于线形的水平。 ?? BM 算法主要用了三种巧妙而有效的方法，即从右到左扫描，坏字符规则和好后缀规则。 ?? 从右到左扫描的意思是从最后一个字符开始向前匹配，而不是习惯上的从开头向后匹配。 ?? 坏字符规则是，从右到左的扫描过程中，发现 Ti 与 Pj 不同，如果P 中存在一个字符 Pk 与 Ti 相同，且 ki 那么就将直接将 P 向右移使 Pk 与 Ti 对齐，然后再从右到左进行匹配。如果 P 中不存在任何与 Ti 相同的字符，则直接将 P 的第一个字符与 Ti 的下一个字符对齐，再从右到左进行比较。 ?? 如图： ?? T：???? a b c b a d f t a t e ?? P：???? c b a x a d ?? P：???????? c b a x a d ?? ?? 用 R(x) 表示字符 x 在 P 中出现的最右位置，此例中 R(b)=2。 ?? 可以看出使用从右到左扫描和坏字符规则可以跳过 T 中的很多位置不去检查，从而使时间复杂度低于线性。 ?? 好后缀规则是，从右到左的扫描过程中，发现 Ti