情報生命科学特別講義….pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
情報生命科学特別講義…

* * * * * * * * * * * EOTG, SEOTGの性質 文法のサイズ: 右辺に現れる木の枝数の合計 補題: サイズ m のEOTGは、サイズ 3m 以下の      SEOTGに変換可能 定理: 与えられた木がEOTGから生成可能かどうか      は多項式時間で判定可能 圧縮においては、1個の木のみを生成する文法のみを対象  ← 与えられた木を圧縮したい オイラー文字列を作ってから文法圧縮すると、必ずしも木文法は得られない 圧縮アルゴリズム: TREE-BISECTION TREE-BISECTION (1) 木を再帰的に分割 同型な部分木が出てきたら同じラベルを割り当てる T が枝 A のみの場合 A→a という規則を追加して終了 (a は枝 A のラベル) T がタグなし木の場合 T を T1, T2 に分割。ただし、|T1|≦(1/2)|T|+1、かつ、 T1 はタグつき T2 を T3, T4 に分割。ただし、|T3|, |T4|≦(3/4)|T|+1 T がタグつき木の場合 T を T1, T2 に分割。ただし、|T1|≦(1/2)|T|+1、かつ、 T1 はタグつき T2 を T3, T4 に分割。 T3, T4 のいずれかのみがタグつき木 T3 がタグつき木なら、 |T3|≦(1/2)|T|+1  (逆も同様) (|T4|は制約されないが、タグなし木なので次ステップで必ず小さくなる) 多項式時間で動作するのは、ほぼ明らか TREE-BISECTION (2) 枝1本のみ タグなし木 タグあり木 TREE-BISECTIONの解析 mk-補題(1) 補題: 木 T がサイズ m の EOTG により生成されたとすると、 es(T) に現れる長さ k の文字列のうち、異なるものは 2mk 個以下。 mk-補題 [Lehman Schelat 02] 文字列 s がサイズ m の CFG により生成されたとすると、 s に現れる長さ k の文字列のうち、異なるものは mk 個以下。 証明: サイズ m のEOTG は、サイズ 2m の CFG に変換可能 例: オイラー文字列を用いて順序木に拡張 mk-補題(2) 命題:m*を最小EOTGのサイズとすると、アルゴリズム中で現れる サイズ k の木の種類は高々 証明: サイズ k の木 ? 長さ 2k-2 の文字列。ただし、途中にタグが入る場合は、長さ k1 と 長さ (2k-2)-k1 の文字列の組み合わせ。 その他の補題 証明: TREE-BISECTION は もとの木を edge disjoint な木 に分解 補題: 大きさ n の木を生成するEOTGのサイズは 補題: TREE-BISECTION の再帰の深さは 補題: TREE-BISECTION の 同じ深さの再帰レベルに現れる 木の枝の数の合計は n-1 以下 定理: TREE-BISECTION の近似率は O(n5/6) 同じ再帰レベルに現れるサイズnα +1以上の木の個数は (n-1)/nα n1-α 以下 アルゴリズム中に現れるサイズnα +1以上の木の個数は  O(n1-α log n) サイズ nα 以下の木の種類は よって、アルゴリズム中に現れる異なる木の種類は α=1/6, m* が O(n1/6) とおいて (次数制約つき)無順序木への拡張 TREE-BISECTIONの変更点 T2 を、r(T2) と wj の子孫からなる部分木(j=1,…,h)に分解 順序木の同型性判定を無順序木の同型性判定に置き換え ? 入力木は子の順序に関係なく、一意に分解される EOTGの変更点 子の順序を無視    e.g., (IIIA)=(IIIB) ? O(n5/6)近似 まとめ 文法圧縮: 入力データを一意に生成する最小文法の近似 文字列の文法圧縮 二分割法、LZ圧縮との関連、LCAを用いた圧縮 画像データの文法圧縮: 四分割法(二分割法の拡張) 木構造データの文法圧縮: 二分割法の拡張 補足 文字列の文法圧縮については最適に近い近似が可能          [Rytter: Theoret. Comp. Sci. 2003], [Charikar et al.: IEEE Trans. Inf. Theory 2005] 文法圧縮した文字列に対する効率的な検索なども可能                                         [Bille et al.: Proc. SODA 2011] 画像データ、木構造データの近似率の改善は研究課題 * * *

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档