- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多串匹配算法及其意义
多串匹配算法及其启示 南京市外国语学校 朱泽园 问题提出 所谓多串匹配,就是给定一些模式串,在一段文章(只出现小写a到z这26个字母)中,找出第一个出现的任意一个模式串的位置,或者所有模式串出现的所有位置。 例子 模式串:“abcd” “bcde” 正文: 实际应用 含逻辑关键字的搜索引擎 DNA序列搜索 …… 数据规模 设共有m个模式串,长度分别为L1、L2…Lm正文为一个长度为n的数组T[1..n],限定 朴素想法 从小到大枚举每一个位置,并且对所有模式串进行检查。最坏情况下时间复杂度为 对每一个模式串,使用kmp算法进行单串匹配,时间复杂度为 我的算法 辅助算法1:Knuth-Morris-Pratt模式匹配 辅助算法2:单词前缀树(自创) 主算法1:线性算法 辅助算法3:后缀树 主算法2:平均性能更好的算法 单词前缀树 单词查找树 前缀指针的定义 单词前缀树之所以不同于单词树,是因为它的每一个非根结点上都有一个前缀指针(Prefix Pointer)。 设s为结点p在树中对应的字符串 s的所有后缀中,找到在单词树中出现的,最长的一个,设为s1。 p结点的前缀指针指向s1对应的结点。 单词前缀树(续) 举例 单词前缀树(续) 前缀指针的生成 从定义出发,穷举+扫描 从kmp算法的前缀数组中吸取经验,通过父节点的前缀指针计算 单词前缀树(续) 举例 主算法一 kmp算法的启发 kmp算法的精髓是减少重复的计算,根据自身的位移匹配(特征),确定模式串的右移量。 主算法一(续) 单词前缀树的使用和附加标记Okay 模式串是构成单词前缀树的基本元素 模式“abcd”“bc” 主算法一(续) 主过程 主算法一(续) 一点注意 主算法一(续) 时间复杂性分析 单词前缀树的构建 正文的检索 空间复杂性分析 主算法一(续) 优化方案 二进制转化 动态分配子结点+二分查找 后缀树概述 路经压缩 McCreight(1976),On-line Construction(1995) 主算法二 单词前缀树的使用和扩展(TreeA) 主算法二(续) 参数Shift,记录每一个结点到达任意一个Okay结点(自身除外)的最短路径(既可以通过树中的边,也可以通过前缀指针) 主算法二(续) 举例 主算法二(续) 后缀树的使用和扩展(TreeB) 由所有模式串倒置后的所有后缀组成。 模式串为“abab”“ba”“bb” 倒置:“baba”“ab”“bb” 作用: 在O(N)的时间内,从后向前地查看一段长度为N的字符,检测它是否为任意一个模式串的子串 主算法二(续) TreeA上的函数ScanA Function ScanA(Left,Right,P); 如果Shift参数 最短的模式串长度 div 2,继续读入字符并且P继续移动 输出所有遇到的匹配 主算法二(续) TreeB上的函数ScanB Function ScanB(Left,Right); 在TreeB中,将T[Left..Right]从右向左进行扫描,检查其是否为某个模式串的子串,返回最后扫描到的正文的位置。 定义:当一个字符串是某个模式串的子串时,称其为“有效的”,反之为“无效的”。 主算法二(续) 主过程的基本思想: 1、每次处理一个Left+1~Right的段落 2、从Right向左通过ScanB检索,最后到达位置pos。 3、从pos到Right进行ScanA检索。 4、下一个过程的Left为ScanA检索到的正文位置,Right为Left + 当前TreeA上的结点的Shift参数 主算法二(续) 举例 模式串为“abcd”和“bcde” TreeA 主算法二(续) T=“abcabcde” ,Left=0, Right=4, P=1 从Right到Left+1逆向进行ScanB “a”为“有效的” “ca”为“无效的”,所以pos=4。 主算法二(续) 1..3的正文位置上,不可能出现模式的匹配 ScanA的检索需要从TreeA根结点重新开始,P指针重置为TreeA的根结点。 主算法二(续) 从pos到Right进行ScanA检索 主算法二(续) 阶段1: 正向ScanA检索字符串“a” 主算法二(续) T=“abcabcde” Left = 4, Right = Left + Shift[P] = 7, P = 2 从Right到Left+1逆向进行ScanB 有“bcd”为“有效的”,所以pos=5。 主算法二(续) 阶段1: 正向ScanA检索字符串“bcd” 再读入字符“e” 主算法二(续) 时间复杂度分析: 设最短的模式串长度为θ 最坏情况O(N) 设所有的模式串长度均为θ,θ足够大时,若
文档评论(0)