生物情報ソフトウェア特論-bic.kyoto.pptVIP

  • 1
  • 0
  • 约5.34千字
  • 约 37页
  • 2017-01-15 发布于天津
  • 举报
生物情報ソフトウェア特論-bic.kyoto

接尾辞配列 (suffix array) 接尾辞木と似た情報をより簡潔に表現 もとの文字列の接尾辞をソートし、接尾辞の開始位置のみを格納した配列(図中のSA) 文字列 S SA ソートした接尾辞 接尾辞配列の性質 接尾辞木があれば簡単に構成できるが、接尾辞木を作らなくても O(n) 時間で直接構成可能 部分文字列検索を、単純な二分探索法で O(m log n)時間で実行可。より精密な方法を使えば、O(m+log n)時間で実行可。 その他、接尾辞木でできる多くの操作が接尾辞配列でも可能(ただし、配列以外に付加的な情報が必要になる場合もある) 部分文字列検索の例: P=abraca a: (10,7,0,3,5) ? ab: (7,0) ? abr: (7,0) ? abra (7,0) ? abrac (0) Burrows-Wheeler(BW)変換 例で示す: S=abracadabra$ ($は終端を意味) この文字列を巡回させた文字列をすべて生成し、ソートし、終端の文字を並べたものが変換後の文字列 ard$rcaaaabb ソート BW変換: 逆変換 変換後の文字列 同じ文字が連続して並ぶことが多い ? データ圧縮に有利 もとの文字が(同じ回数だけ)出現 終端 始端 逆変換:アイデア ソート後の巡回文字列の終端(BW変換)と始端の文字を並べる(文字には順番に番号を付

文档评论(0)

1亿VIP精品文档

相关文档