- 1、本文档共78页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Suffix tree and suffix array
techniques for pattern analysis
in strings
Esko Ukkonen
Univ Helsinki
Erice School 30 Oct 2005
ttttttttttttttgagacggagtctcgctctg
tcgcccaggctggagtgcagtggcggg
atctcggctcactgcaagctccgcctcc
cgggttcacgccattctcctgcctcagcc
tcccaagtagctgggactacaggcgcc
cgccactacgcccggctaattttttgtattt
ttagtagagacggggtttcaccgttttagc
cgggatggtctcgatctcctgacctcgtg
atccgcccgcctcggcctcccaaagtgc
gggattacaggcgt
Algorithms for combinatorial string
matching
deep beauty?
shallow beauty?+
applications
?+十
intensive algorithmic miniatures
sources of new problems
text processing, DNA, music
Analysis of a string of symbols
T= hattivatti text
·P=att
pattern
Find the occurrences of p in t.
attivatti
Pattern synthesis: #(t=4 #(atti=2
#(tt)=2
Pattern finding synthesis problems
T=tt2…tn,P=p1p2…pn, strings of symbols in
finite alphabet
Indexing problem: Preprocess T(build an index
structure)such that the occurrences of different
patterns p can be found fast
static text, any given pattern P
Pattern synthesis problem: Learn from T new
patterns that occur surprisingly often
What is a pattern? Exact substring approximate
substring, with generalized symbols, with gaps,5
1. Suffix tree
2. Suffix array
3. Some applications
4. Finding motifs
The suffix tree Tree(t)of T
data structure suffix tree, Tree(T), is
compacted trie that represents all the
suffixes of string T
linear size: Tree(D=o(TD
can be constructed in linear time O(TD
has myriad virtues (A Apostolico
is well-known 366 000 Google hits
Suffix trie and suffix tree
abaab
aab
b
Trielabaab)
Treelabaab
baab
Trie(t)can be large
°|Tre(T)|=O(T2)
bad example: T=a bn
Trie(T)can be seen as a dFA: language
accepted= the suffixes of T
minimize the dfa = directed cyclic word
graph(DAWG)
Tree(T)is of linear size
only the internal branching nodes and the
leaves represented explicitly
edges labeled by substrings of T
V= node(a)if the path from root to v spells a
on
您可能关注的文档
- 名词复数正式版.ppt
- 名词冠词,数词.ppt
- 名词句法功能教案的资料.ppt
- 名词性从句 复习.ppt
- 名词和名词变化.ppt
- 名词单数表达.ppt
- 名词性从句复习公开课.ppt
- 名词性从句重点与难点.ppt
- 名词性从句公开课原稿的资料讲解.ppt
- 名词所有格作定语词形转换.ppt
- 《GB/T 43746.1-2024钻孔和基础施工设备安全要求 第1部分:通用要求》.pdf
- GB/T 37820.1-2024船舶与海上技术 船舶安全标志、防火控制图标志、安全提示和安全标记的设计、位置和使用 第1部分:设计原则.pdf
- GB/T 38001.53-2024柔性显示器件 第5-3部分:目视评价方法.pdf
- 中国国家标准 GB/T 37820.1-2024船舶与海上技术 船舶安全标志、防火控制图标志、安全提示和安全标记的设计、位置和使用 第1部分:设计原则.pdf
- 《GB/T 37820.1-2024船舶与海上技术 船舶安全标志、防火控制图标志、安全提示和安全标记的设计、位置和使用 第1部分:设计原则》.pdf
- 《GB/T 38001.53-2024柔性显示器件 第5-3部分:目视评价方法》.pdf
- 中国国家标准 GB/T 38001.53-2024柔性显示器件 第5-3部分:目视评价方法.pdf
- 《GB/T 38001.51-2024柔性显示器件 第5-1部分:光学性能测试方法》.pdf
- GB/T 38001.51-2024柔性显示器件 第5-1部分:光学性能测试方法.pdf
- 中国国家标准 GB/T 38001.51-2024柔性显示器件 第5-1部分:光学性能测试方法.pdf
文档评论(0)