8_数据压缩.ppt

8_数据压缩要点

* 字典编码压缩 字典编码(dictionary encoding)。压缩后的信息是字典中单词的索引号。 字典编码的基本思想就是给每个词编号,而不是给每个字母(或汉字)编号。 例如,50000个ASCII字符的文字,每个字符8位,共40万bit 50000*8=40万bit 如果它们由平均6个字母长的单词组成,大约8333个单词 如果给每每个单词一个代号,需要14位, 共8333*14=50000/6*14=11.7万bit * 字典编码压缩 【课堂练习2-45】下面是一首外国诗歌,其中包含了许多重复的字母组合。 The Rain Pitter patter Pitter patter Listen to the rain Pitter patter Pitter patter On the window pane 将此诗歌按照图示方法压缩。 * 现在归纳一下字典编码压缩的思想 在文本中查找字母组合,如果这个字母组合曾经出现过(意味着可以被索引),它将被移除并用指针/索引(就像上面练习中画出的箭头和方格)代替。 在计算机上的实现? (a)标记重复串起点和长度 所画的指示箭头和需要参照的字符串用当前位置与参照字符串的距离和拷贝字符数来表示。 例如,Pitter patter压缩后的结果为Pitter pa(7,4)。其中,7表示从当前位置倒数7个字符(包括空格),4表示把从该处开始

文档评论(0)

1亿VIP精品文档

相关文档