后缀数组及其应用.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
后缀数组及其应用;本文探讨内容: 1、后缀树组的概念及构造方法; 2、后缀树组的相关应用;;有关后缀树(Suffix Tree ): 提到后缀数组,我们不由自主地会想到后缀树。后缀树(Suffix tree)是一种数据结构,能快速解决很多关于字符串的问题。后缀树的概念最早由Weiner 于1973年提出,既而由McCreight 在1976年和Ukkonen在1992年和1995年加以改进完善。 ;S=“BANANAS”。; 后缀树在处理字符串问题上有着得天独厚的空间优势和速度优势,在最坏情况下, 后缀树的节点数也不会超过2N。主流的构造方法是由Esko Ukkonen 于1995年发明的一种线性构造法,理论时间复杂度为O(N)。非常优秀。;*后缀数组 (Suffix Arrary);两个重要元素;后缀数组的构造方法:;;倍增算法(Double Algorithm);当前求2k-rank[],2k-sa[]。; 通过上面的例子,通过k-rank[]可以在O(1)的时间内完成suffix(i)和suffix(j)的比较。这样就充分利用了后缀之间有机的联系。 具体实现当然不是枚举每两个串进行比较。进一步想想,这样比较不就是将每个后缀看作一个元素,k-rank[i]作为第一关键字,k-rank[i+k]作为第二关键字进行排序吗?;基数排序(Radix Sort);接着将筒中的数依次倒出,得到: 81, 22, 73, 93, 43, 14, 55, 65, 28, 39 ; 现在只需求出1-rank[]和1-sa[]就可以每次通过O(n)的排序转移。至于求1-rank[]与1-sa[],把原串中的字符排序即可,快排或基数排序都可以,均不影响算法的时间复杂度。但是建议使用基数排序。;倍增算法——思想总结;最长公共子串问题: 给定两个字符串S1[],S2[]。求出他们的最长公共子串。例如: s1=“she handsome”,s2=“he slim”。则输出字符串”he”。(N=10^5);在此,我向大家介绍后缀数组的强力外援 ——LCP(Longest Common Prefix);关于RMQ问题(Range Minimum Query) 线段树等高级数据结构维护,O(nlogn)构造,O(logn)查询,ST算法O(nlogn)构造,O(1)的查询。RMQ标准算法O(n)构造,0(1)查询。;Height[]数组及其高效计算;证明:h[i]=h[i-1]-1 证: 首先,明确一个基本事实:对于任意的i=jk,有LCP(j,k)LCP(i,k)。直观上理解相对于同一个后缀,与他排得越近的后缀的最长公共前缀一定更长。 1、若h[i-1]=1,则h[i]=0=h[i-1]-1显然成立。 2、若h[i-1]1. 带入定义式,即height[rank[i-1]]1,又因为height[0]=0,所以rank[i-1]1。 为了简单起见,令j=i-1,k=sa[rank[i-1]-1]。则suffix(k)suffix(j)。 因为h[i-1]1,所以LCP(rank[k+1],rank[i])=h[i-1]-1. 又rank[k+1]rank[i],所以rank[i]-1=rank[k+1]. 利用开头那个引理, h[i]=LCP(rank[i]-1,rank[i]) =LCP(rank[k+1],rank[i])=h[i-1]-1. 综上,有h[i]=h[i-1]-1。 ; 有了这个性质,我们就可以根据h[1],h[2],…..,h[n]顺序先计算出h[i]。再根据height[i]=h[sa[i]]计算出height[]数组。; 现在,我们可以很好的解决刚才的最长公共子串问题了,构造好后缀数组后,答案就是height[i]中的最大值。当然,要注意判断公共子串不能跨过‘$’。 时间复杂度O(nlogn)。;正解:; 算法已经很明显了,首先将原串反转接到原串后,中间用’$’隔开,最后也加上一个’0’。计算出该字符串的后缀数组,再枚举中心i,那么向两边拓展的最大长度为LCP(rank[i],rank[n-i+1])。直接计算出回文串长度,从中取个最大值即可。(注意奇回文串与偶回文串的不同处理)。;问题;课堂小结

文档评论(0)

锦绣中华 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档