文字列照合アルゴリズム -.pptVIP

下载本文档

2
0
约4.37千字
约 12页
2016-09-16 发布于天津
举报
版权申诉

文字列照合アルゴリズム -.ppt

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文字列照合アルゴリズム -

北海道大学 Hokkaido University 北海道大学 Hokkaido University 北海道大学 Hokkaido University 情報理論講義資料北海道大学 Hokkaido University 情報理論講義資料 * 情報理論講義資料 2016/07/06 情報エレクトロニクス学科共通科目?２年次?第１学期〔必修科目〕講義「情報理論」第8回第5章情報源符号化法 5.3 非等長情報系列の符号化 * 情報理論講義資料 2016/07/06 [復習] コンパクト符号コンパクト符号　　各情報源記号を符号化した一意復号可能な符号で　　平均符号長が最小の符号情報源Sの２元コンパクト符号の平均符号長≧H1(S) 　　　　　　　　　　　　　　　　　↑ 　　　　各情報源記号を２元符号化した場合の本当の限界代表的なコンパクト符号　　　ハフマン符号 * 情報理論講義資料 2016/07/06 [復習]ブロックハフマン符号化情報源Sから発生するn個の情報源記号ごとにブロック２元符号化　　　 H1(Sn)/n ≦ Ln ＜ H1(Sn)/n + 1/n　???????① (H1(Sn) /nはSの n次エントロピーと呼ばれる量） n記号ごとに符号化した符号の一情報源記号当たりの平均符号長Lnが以下の式を満たすものが存在ブロックハフマン符号化情報源Sから発生するn個の情報源記号ごとにハフマン符号化平均符号長Lnは①式を満たす → nを無限大に近づけるとH(S)に近づく。 0.04 0.16 0.64 0.16 0.20 0.36 0 0 1 0 1 1 00 01 10 11 情報源系列確率ハフマン符号 0 10 110 111 [例：1の出る確率が0.2の2元無記憶定常情報源を２情報源記号ごとにハフマン符号化] １情報源記号あたりの平均符号長は0.78 * 情報理論講義資料 2016/07/06 ブロックハフマン符号化法の問題点ブロックハフマン符号化法 n次の拡大情報源に対してハフマン符号化を行うやり方 n を大きくすることにより、1情報源記号あたりの平均符号長をいくらでも下限H(S)に近づけられる。 [例] 1, 0の発生確率が0.01, 0.99の無記憶情報源S H(S)＝0.081 目標：平均符号長L を0.089 以下無記憶だからL＜H(S)+1/nとなり、n を 1/0.008＝125 以上にすれば確実。 n＝125 の系列は 2125≒4×1037 個もある！事実上、そのようなハフマン符号を構成することはできない??? しかし長さnのすべての情報源系列と符号語の巨大な対応表が必要 1/125=0.008 無記憶ならば Hn(S)=H1(S)=H(S) * 情報理論講義資料 2016/07/06 非等長情報源系列の符号化 n記号毎符号化するハフマンブロック符号化法では、符号化すべき情報源系列の数は、M元情報源の場合、Mn 個！符号化すべき情報源系列を非等長にしてはどうだろう？長い情報源系列と短い情報源系列を組み合わせ、長いがよく発生する系列に、短い符号語を割り当てる符号化する情報源系列の数を減らし、符号化のために記憶すべき表を削減する比較的に長いブロックで符号化したときと同じような効果を持たせられないだろうか？ [例]２元無記憶定常情報源の符号化 * 情報理論講義資料 2016/07/06 0.04 0.16 0.64 0.16 00 01 10 11 情報源系列確率符号語 0 10 110 111 ブロック符号化 0 0 1 1 0 0 1 0 0 0 0 0 0 1 0 1 1 1 0 1 1 0 0 0 1 0 情報源系列符号語列１情報源記号あたりの平均符号長は0.78 1の出る確率が0.2の２元無記憶定常情報源を考える 0.2 0.16 0.512 0.128 000 001 01 1 情報源系列確率符号語 0 100 101 11 非等長情報源系列の符号化 0 0 1 1 0 0 1 0 0 0 0 0 0 1 1 0 0 1 1 1 0 0 0 0 1 1 情報源系列符号語列１情報源記号あたりの平均符号長は 0.728 同じ数の符号語でより効率的な符号を実現分節木 * 情報理論講義資料 2016/07/06 00 01 10 11 情報源系列符号語 0 10 110 111 000 001 01 1 情報源系列符号語 0 100 101 11 0 1 0 1 0 1 分節木符号化する情報源系列（橙の節点）