- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于动态词典的文本压缩研究
摘要
近年来,数据压缩的理论得到了相当充分的发展,相关的产品在各
个领域被广泛应用。从数据还原的角度来看,数据压缩可以分为有损压
缩和无损压缩两大领域”’。
本文的压缩研究属于无损压缩领域。在第一章中,对无损压缩领域
中基于统计和基于字典的两大主流方法进行了叫顾,并阐述了其中主要
压缩方法的原理和特点,指出了其适用范围和局限性。本文进1步从基
于字典的压缩方法出发,针对相关字典内容的特点进行了具体分析:一
般基于字典压缩方法中的字典,仅与源码流的字符顺序相关,而不与其
具体内容的意义相关。本文着重针对文本文件尤其是中文文本文件进行
了分析,指出文本文件的字符比一般文件的字符有更强的关联性,字符
之间的搭配也有较强的稳定性。据此,本文在压缩方法中建立了内容关
联性较强的词典,而不是一般的字典,并提出了一种崭新的数据压缫穷
法一动态词典压缩法。
动态词典压缩法,克服了传统字典压缩方法的某些不足。传统的字
典压缩方法中,当字典饱和或压缩率降低时,要么保持字典不变继续使
用,要么将字典完全废弃“。。此时的字典或不能很好的反映历史数据特
点,或不能反应现实数据特点,不能发挥它盼最大作用,字典的管理存
在明显的局限性。木文的动态词典由保持独立的词典单元组成。在压缩
和解压过程中,使用散列法对词典单元进行定位,并使用线性搜索查找
词典单元的内容,使对整个字典的操作能很快进行。同时,本文对词典
的管理采用了一种全新的方法一冲突率弦,并用冲突率对词典单元的有
效性进行及时检查。当冲突率超过某‘设定值时,本词典单元立日口废弃
不用并需重新建立,但其它的单元保持不变,这样既能使符合要求的词
典单元保留下来继续使用,又能将不满足条件的词典单元及时废弃,从
而保证整个字典的高效性。本文把这种及时更新内容的词典称为动态词
TI
典,由此建立的压缩法称为动态词典压缩法,并简称为“QQQ”。
词典重用法是本文采取的另一种重要方法,它主要用于对文件夹进
行词典的高效管理。一般而言,处于文件夹中的文件在内容方面有较强
的关联性,因而建立的词典也应有相似的部分。为了进一步体现动态词
典的高效性,本文不是为每一个文件建立一个独立的词典,而是将同一
词典在各个文件中重复使用一这就叫词典重用。通过词典的重用,不仅
提高了处理文件夹的速度,而且还提高了文件夹的压缩率。
实现本算法的软件已成功开发。实验表明,本算法在文本压缩方面
有较好的综合性能;作为一个独立的压缩方法,它有较快的速度和较高
的压缩率。
关键词压缩文本字典动态冲突率 “QQQ”
III
RESEARCHONTEXTCOMPRESSION
BASEDONDYNAMICDICTIONARY
ABSTRACT
ofdata make
Nowadays,methodscompressionenough
relative are invariousfields.Data falls
productswidelyapplied compression
intotwo andlossless
categories:lossycompression.
Thisarticle concerns谢mlossless one,a
mainly compression.Inchapter
briefreviewonthe oftwomainfieldsinlossless
history compression--
basedon and basedon
文档评论(0)