多串匹配算法及其意义.pptVIP

下载本文档

9
0
约5.4千字
约 37页
2017-07-06 发布于河南
举报
版权申诉

多串匹配算法及其意义.ppt

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多串匹配算法及其意义

多串匹配算法及其启示南京市外国语学校朱泽园问题提出所谓多串匹配，就是给定一些模式串，在一段文章（只出现小写a到z这26个字母）中，找出第一个出现的任意一个模式串的位置，或者所有模式串出现的所有位置。例子模式串：“abcd” “bcde” 正文：实际应用含逻辑关键字的搜索引擎 DNA序列搜索 …… 数据规模设共有m个模式串，长度分别为L1、L2…Lm正文为一个长度为n的数组T[1..n]，限定朴素想法从小到大枚举每一个位置，并且对所有模式串进行检查。最坏情况下时间复杂度为对每一个模式串，使用kmp算法进行单串匹配，时间复杂度为我的算法辅助算法1：Knuth-Morris-Pratt模式匹配辅助算法2：单词前缀树（自创）主算法1：线性算法辅助算法3：后缀树主算法2：平均性能更好的算法单词前缀树单词查找树前缀指针的定义单词前缀树之所以不同于单词树，是因为它的每一个非根结点上都有一个前缀指针（Prefix Pointer）。设s为结点p在树中对应的字符串 s的所有后缀中，找到在单词树中出现的，最长的一个，设为s1。 p结点的前缀指针指向s1对应的结点。单词前缀树（续）举例单词前缀树（续）前缀指针的生成从定义出发，穷举+扫描从kmp算法的前缀数组中吸取经验，通过父节点的前缀指针计算单词前缀树（续）举例主算法一 kmp算法的启发 kmp算法的精髓是减少重复的计算，根据自身的位移匹配（特征），确定模式串的右移量。主算法一（续）单词前缀树的使用和附加标记Okay 模式串是构成单词前缀树的基本元素模式“abcd”“bc” 主算法一（续）主过程主算法一（续）一点注意主算法一（续）时间复杂性分析单词前缀树的构建正文的检索空间复杂性分析主算法一（续）优化方案二进制转化动态分配子结点+二分查找后缀树概述路经压缩 McCreight(1976),On-line Construction(1995) 主算法二单词前缀树的使用和扩展（TreeA）主算法二（续）参数Shift，记录每一个结点到达任意一个Okay结点（自身除外）的最短路径（既可以通过树中的边，也可以通过前缀指针）主算法二（续）举例主算法二（续）后缀树的使用和扩展(TreeB) 由所有模式串倒置后的所有后缀组成。模式串为“abab”“ba”“bb” 倒置：“baba”“ab”“bb” 作用：在O(N)的时间内，从后向前地查看一段长度为N的字符，检测它是否为任意一个模式串的子串主算法二（续） TreeA上的函数ScanA Function ScanA(Left,Right,P); 如果Shift参数最短的模式串长度 div 2，继续读入字符并且P继续移动输出所有遇到的匹配主算法二（续） TreeB上的函数ScanB Function ScanB(Left,Right); 在TreeB中，将T[Left..Right]从右向左进行扫描，检查其是否为某个模式串的子串，返回最后扫描到的正文的位置。定义：当一个字符串是某个模式串的子串时，称其为“有效的”，反之为“无效的”。主算法二（续）主过程的基本思想： 1、每次处理一个Left+1~Right的段落 2、从Right向左通过ScanB检索，最后到达位置pos。 3、从pos到Right进行ScanA检索。 4、下一个过程的Left为ScanA检索到的正文位置，Right为Left + 当前TreeA上的结点的Shift参数主算法二（续）举例模式串为“abcd”和“bcde” TreeA 主算法二（续） T=“abcabcde” ，Left=0, Right=4, P=1 从Right到Left+1逆向进行ScanB “a”为“有效的” “ca”为“无效的”，所以pos=4。主算法二（续） 1..3的正文位置上，不可能出现模式的匹配 ScanA的检索需要从TreeA根结点重新开始，P指针重置为TreeA的根结点。主算法二（续）从pos到Right进行ScanA检索主算法二（续）阶段1：正向ScanA检索字符串“a” 主算法二（续） T=“abcabcde” Left = 4, Right = Left + Shift[P] = 7, P = 2 从Right到Left+1逆向进行ScanB 有“bcd”为“有效的”，所以pos=5。主算法二（续）阶段1：正向ScanA检索字符串“bcd” 再读入字符“e” 主算法二（续）时间复杂度分析：设最短的模式串长度为θ 最坏情况O(N) 设所有的模式串长度均为θ，θ足够大时，若