基于单词的Huffman压缩方法.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于单词的Huffman压缩方法

第22卷 第4期              桂 林 工 学 院 学 报             Vol.22No.4 2002年 10月         JOURNALOFGUILININSTITUTEOFTECHNOLOGY        Oct2002  文章编号:1006-544X(2002)04-0425-05 基于单词的Huffman压缩方法 1 2 1 陈基漓 ,严小卫 ,杨 祥 (1.桂林工学院 电子与计算机系,广西 桂林 541004;2.广西师范大学 计算机科学系,广西 桂林 541004) 摘 要:基于单词的文本压缩算法是一种新型的算法,它与传统文本压缩算法的主要区别 是以单词取代单个字符作为处理对象.介绍了基于单词的Huffman压缩算法,给出了多叉 Huffman树的构造算法 ,用一个例子进行了说明,比较了两种不同宽度的Huffman编码树. 宽度为256的算法使用整个字节进行编码,而宽度为128的算法只使用一个字节中的7位进 行编码,故前者具有更好的压缩率,并通过实验进行了说明. 关键词:基于单词的压缩算法;Huffman编码;Huffman树 中图分类号:TP391;TP274         文献标识码:A①   传统的文本压缩算法多以字符作为基本处理 是在压缩过程中每次处理的是一个单词. 单位,基于字符的压缩方法具有简单容易实现的   本文介绍了基于单词的Huffman编码压缩方 特点.首先由于出现在文本中的单个字符的个数 法,指出基于单词的Huffman压缩算法适合采用 是有限的,基于字符的压缩方法中使用的一些辅 按字节运算的编码模式,在二叉 Huffman树的构 助结构就相对简单而且便于维护,如 Huffman压 造算法基础上给出了多叉 Huffman树的构造算法, 缩方法中构造的Huffman树,LZW方法中构造的 并以一个四叉树的构造举例说明了多叉 Huffman 字典.其次在基于字符的压缩方法中,每次处理 树的构造算法,最后比较了两种不同宽度的Huff 的都是数据源中的下一个字符,直接从数据源中 man编码树. 读取即可,不涉及任何其它的操作.由于以上原 1 基于单词的Huffman编码压缩方法 因,如果压缩的目的主要是为了减少数据源的存 储空间,以及传输的数据,基于字符的压缩算法   算法的实现与基于字符的Huffman编码方式 是一种很好的选择.对于自然语言的文本来说, 是一样的,也可以采用静态和动态两种方式.常 从检索、理解等各个方面来考虑,以单词作为基 规的Huffman编码方法采用的是按位运算的方式, 本单位比以字符作为基本单位更符合人们的使用 以存储空间的最小单位 “位”来作为编码的最小 习惯以及自然语言本身的特点,而且以单词作为 单位,每个字符根据编码确定所需要的位数,这 基本元素考虑,还可以使用语言中单词之间的相 种方式的好处是能够充分利用存储空间.以位运 关性,单词相对字符而言,更具有倾向性[1].在 算为基础的Huffman编码正好是二叉树的最好实 这样的背景下,对于以自然语言为基础的文本进 现途径,每一位上的 “0”、“1”两种状态恰好对 行压缩,更好的选择是以单词替代字符作为每次 应一个结点的两个分支.由于每个字符的编码长 处理的一个基本单位.基于单词的压缩方法算法 度是不固定的,在解码或查找的过程中,需要进 的主要思想与基于字符的压缩方法是相同的,只 行位运算来获得不同字符的编码,需要频繁地进 ① 收稿日期:2002-06-19;修订日期:2002-08-19 基金项目:中国科学院计算技术研究所智能信息开放实验室开放课题 (IIP2001-4) 作者简介:陈基漓 (1972-),女,广西兴安人,讲师,硕士,主要研究方向:信息检索及数据库. 426 桂 林 工 学 院 学 报               2002年 行移位和位屏蔽运算,在运算上要花费一定的时 以压缩效率还是很可观的,特别是当文本中较长 间,使得解码的效率降低.基于单词的压缩方法 的单词出现的次数比

您可能关注的文档

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档