2编码和数据压缩.pptxVIP

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2编码和数据压缩

编码和数据压缩 Outline 导论 霍夫曼编码 Ziv-Lempel压缩算法 其他压缩算法 2 导论 为什么需要压缩 计算机和网络中存放着大量的书籍、音乐和电影 但是它们往往会占用大量存储空间,而且需要大量时间从网络上下载 通过压缩,文档会变得更“苗条”,从而使我们收集信息的速度变快,使CD、DVD等存储媒介上存放的信息更多 3 导论 为什么需要压缩 为了满足上述要求,需要做两件事情 压缩数据以便缩小它的体积 解压缩以便人们正常阅读信息 通常这两道工序由计算机在后台自动完成 有时候需要用户明确指示计算机进行压缩,比如压缩成一个ZIP压缩包或GIF图像 更多的时候计算机可自行判断什么时候该自动执行压缩,比如当你准备向网络传送数据前 4 固定长度编码 如果字符出现的概率不同的时候,固定长度编码的空间效率还是很好的吗? 5 不等长编码 在实践应用中,字符出现的概率往往是不同的 如在英语中字母E出现的概率最大,大概10%,而J,Q,Z却只有0.1% 直观上想,如果出现频率高的字母用短的编码代替,出现频率高的用稍长的编码表示,那么平均码长会更小 6 不等长编码 频率不等的字符 可以根据字母的出现频率来编码,使得经常出现的字母的编码较短,反之不常出现的字母编码较长 数据压缩既能节省磁盘空间,又能提高运算速度 7 不等长编码 不等长编码是今天广泛使用的文件压缩技术的核心 而霍夫曼编码是最简单的文件压缩技术,它给出这种编码方法的思想 8 霍夫曼编码 小故事 1951年,霍夫曼和他在MIT信息论的同学需要选择是完成学期报告还是期末考试。导师Robert M. Fano给他们的学期报告的题目是,寻找最有效的二进制编码。由于无法证明哪个已有编码是最有效的,霍夫曼放弃对已有编码的研究,转向新的探索,最终发现了基于有序频率二叉树编码的想法,并很快证明了这个方法是最有效的。 由于这个算法,学生终于青出于蓝,超过了他那曾经和信息论创立者克劳德·香农共同研究过类似编码的导师。 9 前缀编码 如果按照下面进行编码 读取到编码“000110”,会被译码为什么? 这样具有二义性的编码是无法使用的 这样的编码为什么出现这样的问题?如何避免这样的问题呢? 10 前缀编码 以上编码出现问题的原因是编码有相同的前缀 E(0)和D(00)有相同的前缀 0 D(00)和Z(001)有相同的前缀 00 因此对于不等长编码需要 注意任何一个字符的编码都不是另外一个字符编码的前缀 否则译码时将产生二义性 11 前缀编码 我们把编码修改为 如果读到“000110”会被译码为什么? 是唯一的! 除了EEEL你还能想出其他的译码吗?这样的编码有什么特点? 12 前缀编码 以上的编码中,任何一个字符的编码都不是另一个字符的前缀 这样的编码被称为前缀编码 这种前缀特性保证了代码串被译码时,不会有多种可能 那么如何设计前缀编码,并且能够使得编码的平均码长最短呢? 13 二叉树 在计算机科学中,二叉树是每个节点最多有两个子树的有序树。 通常子树被称作“左子树” 和“右子树” 14 二叉树与前缀编码 可以利用二叉树来设计前缀编码 叶结点表示字符 从根结点到叶的路径中,左分支表示‘0’,右分支表示‘1’ 从根结点到叶结点上的路径分支所组成的字符串作为该叶结点字符的编码 这样的编码一定是前缀编码 15 二叉树与前缀编码 16 二叉树与前缀编码 17 二叉树与前缀编码 18 二叉树与前缀编码 19 二叉树与前缀编码 20 二叉树与前缀编码 21 二叉树与前缀编码 22 二叉树与前缀编码 23 二叉树与前缀编码 可以看到这些编码中,任何一个字符串的编码都不是另一个的前缀,因此是前缀编码 为什么二叉树得到的是前缀编码呢? 如何保证这样的编码的平均长度最小呢? 24 霍夫曼编码 霍夫曼编码将代码与字符相联系 代码长度取决于对应字母的相对使用频率 它是一种不等长编码 如果预计的字母出现频率与实际资料显示的情况相符,那么所得代码长度将明显小于用固定长度编码获得的代码 而且也可以证明,霍夫曼树获得的编码的平均长度是最短的 25 构建霍夫曼树 首先将字符按照频率排为一列 接着,拿走头两个字符,再将它们标记为霍夫曼树的树叶,将这两个树叶标记为一个分支结点的两个子女,而该结点的频率即为两树叶的频率之和。 将所得的频率放回序列中适当位置,使频率的顺序保持。 重复上面的步骤,直到序列中只剩下一个元素,霍夫曼树建立完毕 26 构建霍夫曼树 已知字符出现频率 Step 1 按照频率将字符排序 27 构建霍夫曼树 Step 2 合并头两个字符,新结点的频率为两者频率之和 28 构建霍夫曼树 Step 3 将新的频率放回序列中,使得频率顺序保持 29 构建霍夫曼树 Step 4 重复上面的过程 30 构建霍夫曼树 Step 4 重

文档评论(0)

tmd2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档