- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于单词的Huffman压缩方法
第22卷 第4期 桂 林 工 学 院 学 报 Vol.22No.4
2002年 10月 JOURNALOFGUILININSTITUTEOFTECHNOLOGY Oct2002
文章编号:1006-544X(2002)04-0425-05
基于单词的Huffman压缩方法
1 2 1
陈基漓 ,严小卫 ,杨 祥
(1.桂林工学院 电子与计算机系,广西 桂林 541004;2.广西师范大学 计算机科学系,广西 桂林 541004)
摘 要:基于单词的文本压缩算法是一种新型的算法,它与传统文本压缩算法的主要区别
是以单词取代单个字符作为处理对象.介绍了基于单词的Huffman压缩算法,给出了多叉
Huffman树的构造算法 ,用一个例子进行了说明,比较了两种不同宽度的Huffman编码树.
宽度为256的算法使用整个字节进行编码,而宽度为128的算法只使用一个字节中的7位进
行编码,故前者具有更好的压缩率,并通过实验进行了说明.
关键词:基于单词的压缩算法;Huffman编码;Huffman树
中图分类号:TP391;TP274 文献标识码:A①
传统的文本压缩算法多以字符作为基本处理 是在压缩过程中每次处理的是一个单词.
单位,基于字符的压缩方法具有简单容易实现的 本文介绍了基于单词的Huffman编码压缩方
特点.首先由于出现在文本中的单个字符的个数 法,指出基于单词的Huffman压缩算法适合采用
是有限的,基于字符的压缩方法中使用的一些辅 按字节运算的编码模式,在二叉 Huffman树的构
助结构就相对简单而且便于维护,如 Huffman压 造算法基础上给出了多叉 Huffman树的构造算法,
缩方法中构造的Huffman树,LZW方法中构造的 并以一个四叉树的构造举例说明了多叉 Huffman
字典.其次在基于字符的压缩方法中,每次处理 树的构造算法,最后比较了两种不同宽度的Huff
的都是数据源中的下一个字符,直接从数据源中 man编码树.
读取即可,不涉及任何其它的操作.由于以上原
1 基于单词的Huffman编码压缩方法
因,如果压缩的目的主要是为了减少数据源的存
储空间,以及传输的数据,基于字符的压缩算法 算法的实现与基于字符的Huffman编码方式
是一种很好的选择.对于自然语言的文本来说, 是一样的,也可以采用静态和动态两种方式.常
从检索、理解等各个方面来考虑,以单词作为基 规的Huffman编码方法采用的是按位运算的方式,
本单位比以字符作为基本单位更符合人们的使用 以存储空间的最小单位 “位”来作为编码的最小
习惯以及自然语言本身的特点,而且以单词作为 单位,每个字符根据编码确定所需要的位数,这
基本元素考虑,还可以使用语言中单词之间的相 种方式的好处是能够充分利用存储空间.以位运
关性,单词相对字符而言,更具有倾向性[1].在 算为基础的Huffman编码正好是二叉树的最好实
这样的背景下,对于以自然语言为基础的文本进 现途径,每一位上的 “0”、“1”两种状态恰好对
行压缩,更好的选择是以单词替代字符作为每次 应一个结点的两个分支.由于每个字符的编码长
处理的一个基本单位.基于单词的压缩方法算法 度是不固定的,在解码或查找的过程中,需要进
的主要思想与基于字符的压缩方法是相同的,只 行位运算来获得不同字符的编码,需要频繁地进
① 收稿日期:2002-06-19;修订日期:2002-08-19
基金项目:中国科学院计算技术研究所智能信息开放实验室开放课题 (IIP2001-4)
作者简介:陈基漓 (1972-),女,广西兴安人,讲师,硕士,主要研究方向:信息检索及数据库.
426 桂 林 工 学 院 学 报 2002年
行移位和位屏蔽运算,在运算上要花费一定的时 以压缩效率还是很可观的,特别是当文本中较长
间,使得解码的效率降低.基于单词的压缩方法 的单词出现的次数比
您可能关注的文档
- 医学微生物学理论教学大纲-遵义医学院微生物学教研室.PDF
- 医学昆虫生物学特性-健康与环境生态研究所.PPT
- 医学研究生的分轨培养-江西文化信息资源网.PPT
- 十大健康食品排行榜美国营养品排行榜TOP10权威推荐-美容养颜汤.DOC
- 千烟洲中亚热带人工林生态系统通量的李节变异特扯-中国科学院地理.PDF
- 医院临床营养科建设与管理规范-山西质量技术监督局.PDF
- 半滑舌鳎微卫星标记的开发及其在F1家系中分离方式-中国水产科学.PDF
- 华中农业大学2012年第二批创新性试验教学项目选修通知.DOC
- 华东政法大学图书馆特色馆藏及数字资源建设情况介绍.PPT
- 半夏厚朴汤主之.PPT
- 基于博弈理论的无线传感器网络数据融合算法-计算机应用与软件.PDF
- 基于化学模式识别技术的不同产地土炒白术质量比较研究-中国现代中药.PDF
- 基于免疫层析的CRP定量检测试剂研制.PDF
- 基于傅里叶近红外特征光谱的血流感染致病菌鉴别研究-福州大学学报.PDF
- 基于双有机朗肯循环的柴油机余热回收系统性能分析-北京工业大学学报.PDF
- 基于因子分析的烤烟香型定量判别及与品种对应研究-地球信息科学学报.PDF
- 基于员工行为培养的企业文化实践-中国移动.DOC
- 基于图像重叠处理技术的电气设备放电紫外成像检测方法-高压电器.PDF
- 基于地理加权回归的莱州湾南岸土壤盐渍化与环境因子的关系研究.PDF
- 基于声传播时间的二维流场反演数值仿真研究-海洋学报.PDF
文档评论(0)