基于一个中心图的带有通配符和间隙长度约束的模式匹配.pptVIP

  • 1
  • 0
  • 约8.96千字
  • 约 39页
  • 2018-10-15 发布于江苏
  • 举报

基于一个中心图的带有通配符和间隙长度约束的模式匹配.ppt

基于一个中心图的带有通配符和间隙长度约束的模式匹配

基于一个中心度图的带有通配符和间隙长度约束的模式匹配 导师:武优西教授 学生:沈丛 基于一个中心度图的带有通配符和间隙长度约束的模式匹配 作者 -Dan Guo, Xuegang Hu, Fei Xie, Xindong Wu 论文名 - Pattern matching with wildcards and gap-length constraints based on a centrality-degree graph 发表期刊或会议及页码 - Applied Intelligence 出版年份2012 页码1-18 - 该文被EI索引收录 目录 本文核心内容 本文主要提出的是一个图结构WON网。这个图代表着一个网络,该网络带有基于每个结点的中心度的权重度量。使用该网络去获取所有候选匹配解;同时本文设计WOW算法,WOW代表基于WON网的带有通配符的模式匹配。 背景和事例 模式匹配的在生物信息学上的例子: TATA在DNA序列中经常于CAATCT之后30-50个通配符出现。 一个PROSITE模式是一带有固定长度间隙为[4,9]的字符组成的序列。 在信息获取中,带有无用或者“不经心“的字符间隙的词汇更有意义。 背景和事例 例1 已知S = gagggcc和P = g ε0(1,2) ×g ε1(1,2)c,其中ε0(1,2)是一个长度可变的间隙,其通配符个数在1到2之间,通配符φ可匹配文本中的任意字符。 该表表示了模式的出现。 背景和事例 在S中所有的出现为{0,2,5,0,3,5,0,3,6,2,4,6}。 一次性条件下,我们的目标是取得解{0,3,5,2,4,6},而非{0,2,5}或者{0,3,6}。 背景和事例 现存的工作中,没有多项式算法能实现一个关于以上PMGO问题的完整解。虽然一系列的算法有提出,但在最优解问题上更胜一筹的算法还未出现。现有的算法均为启发式算法,未考虑在一次性条件下在整个候选解空间中不同出现之间的冲突。 本文所做的工作: (1)我们提出了一个图结构WON-Net,来表示在已知序列S中模式P的所有出现。其拥有三个优点:(a)它能够处理一个模式,每个子模式可由一些字符组成。(b)在在WON-Net的子结构上的并行执行能在不丢失解的同时改善效率。(c)可通过结点的中心度在所有出现中取得每个子模式的频繁度。 背景和事例 (2)基于WON-Net,提出了WOW算法来解决PMGO问题。比起其他同类算法,WOW的理念是,出现的权重中心度越小,与其他出现交叠的可能更小,来据此取得最优解。WOW比同类算法更为有效和稳定。 (3)我们还提出一个调整机制来平衡解与运算时间之间的关系。我们定义了一个新的WOW变量,WOW-δ。理论分析和实验表明,WOW和WOW-δ比同类算法更有效。运行时间也更有优势。 相关工作 一个通配符可以匹配在一个已知字母表中的任何字符。带通配符的模式匹配问题首先在文献16中有提出。之后,Cole等人提出了在模式中带有固定长度的通配符。U.Manber等人描述了带有间隙约束为[0,g]的通配符,其中g为一个可变的长度。在文献17中,提出有另一个间隙约束,其中的通配符有着同样的间隙约束[a,b](a≤b),诸如Aε(1, 3)Cε(1, 3)Gε(1, 3)C. 【16】Fischer MJ, Paterson MS (1974) String matching and other products.Technical report, Massachusetts Institute of Technology,Cambridge, MA, USA 【17】Zhang M, Kao B, Cheung DW, Yip KY (2005) Mining periodic patterns with gap requirement from sequences. In: Proceedings of ACM SIGMOD, Baltimore, Maryland, USA, pp 623–633 相关工作 通过打破该限制,Navarro和Raffinot提出了一个更为灵活的定义,用户被允许分别用不同长度的约束来指定通配符,例如模式P=Aε(0, 2)Cε(1, 3)G。为了移除大量无用的信息,在问题中兼有非重叠条件和一次性条件。Ding等人提出非交叠的条件,其不允许相同字符在已知序列中的同一个位置出现超过一次。一次性条件更为严格。 本文中,我们关注于定义在文献【8】中带有可变通配符的问题和文献【15】中一次性条件问题。 【8】Navarro G, Raffinot M (2002) Flexible pattern matching in strings—practical on-line sea

文档评论(0)

1亿VIP精品文档

相关文档