关于动态词典的文本压缩研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于动态词典的文本压缩研究 摘要 近年来,数据压缩的理论得到了相当充分的发展,相关的产品在各 个领域被广泛应用。从数据还原的角度来看,数据压缩可以分为有损压 缩和无损压缩两大领域”’。 本文的压缩研究属于无损压缩领域。在第一章中,对无损压缩领域 中基于统计和基于字典的两大主流方法进行了叫顾,并阐述了其中主要 压缩方法的原理和特点,指出了其适用范围和局限性。本文进1步从基 于字典的压缩方法出发,针对相关字典内容的特点进行了具体分析:一 般基于字典压缩方法中的字典,仅与源码流的字符顺序相关,而不与其 具体内容的意义相关。本文着重针对文本文件尤其是中文文本文件进行 了分析,指出文本文件的字符比一般文件的字符有更强的关联性,字符 之间的搭配也有较强的稳定性。据此,本文在压缩方法中建立了内容关 联性较强的词典,而不是一般的字典,并提出了一种崭新的数据压缫穷 法一动态词典压缩法。 动态词典压缩法,克服了传统字典压缩方法的某些不足。传统的字 典压缩方法中,当字典饱和或压缩率降低时,要么保持字典不变继续使 用,要么将字典完全废弃“。。此时的字典或不能很好的反映历史数据特 点,或不能反应现实数据特点,不能发挥它盼最大作用,字典的管理存 在明显的局限性。木文的动态词典由保持独立的词典单元组成。在压缩 和解压过程中,使用散列法对词典单元进行定位,并使用线性搜索查找 词典单元的内容,使对整个字典的操作能很快进行。同时,本文对词典 的管理采用了一种全新的方法一冲突率弦,并用冲突率对词典单元的有 效性进行及时检查。当冲突率超过某‘设定值时,本词典单元立日口废弃 不用并需重新建立,但其它的单元保持不变,这样既能使符合要求的词 典单元保留下来继续使用,又能将不满足条件的词典单元及时废弃,从 而保证整个字典的高效性。本文把这种及时更新内容的词典称为动态词 TI 典,由此建立的压缩法称为动态词典压缩法,并简称为“QQQ”。 词典重用法是本文采取的另一种重要方法,它主要用于对文件夹进 行词典的高效管理。一般而言,处于文件夹中的文件在内容方面有较强 的关联性,因而建立的词典也应有相似的部分。为了进一步体现动态词 典的高效性,本文不是为每一个文件建立一个独立的词典,而是将同一 词典在各个文件中重复使用一这就叫词典重用。通过词典的重用,不仅 提高了处理文件夹的速度,而且还提高了文件夹的压缩率。 实现本算法的软件已成功开发。实验表明,本算法在文本压缩方面 有较好的综合性能;作为一个独立的压缩方法,它有较快的速度和较高 的压缩率。 关键词压缩文本字典动态冲突率 “QQQ” III RESEARCHONTEXTCOMPRESSION BASEDONDYNAMICDICTIONARY ABSTRACT ofdata make Nowadays,methodscompressionenough relative are invariousfields.Data falls productswidelyapplied compression intotwo andlossless categories:lossycompression. Thisarticle concerns谢mlossless one,a mainly compression.Inchapter briefreviewonthe oftwomainfieldsinlossless history compression-- basedon and basedon

文档评论(0)

cxmckate + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档