- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
IIII
IIII I I II I I I III I I I II III
\1 924927
A Dissertation Submitted to
Guangdong University of Technology
for the Master Degree of Engineering Science
Data Compression Research based on the Multiple Pattern Matching Algorithm
Candidate:Wei Xing
Supervisor:Prof.Wu Weimin
May,2011 Faculty of Computer
Guangdong University of Technology
Guangzhou 51 0006.P.R.China
r
r
摘
摘 要
摘 要
近年来,日常需要处理和传输的数据越来越多,数据压缩也变得越来越重要, 而其中文本是数据的一个重要组成部分,因此对文本数据的压缩研究就成为了压缩 领域研究的一个重点。基于字典的压缩算法是文本压缩的一种典型的算法,对其展 开研究对文本数据的压缩有着十分重要的意义。本文在对基于字典的压缩算法分析 的基础上,选择LZSS算法展开了研究,主要工作如下:
首先,为了提高文件的压缩率,对文本文件的无损压缩进行了研究,回顾了经 典的无损压缩算法,并阐述了主要压缩方法的原理和特点。实现了三种基于字典的 经典压缩算法并在此基础上进行了分析。LZSS算法是LZ77算法的改进,压缩率虽 然不高,但因其算法简单、解压速度快,在实际应用中得到了广泛的认可。因此选 择了LZSS算法进行研究,目的是在保持高解压速度的基础上进一步提高其压缩率。 其次,在LZSS的基础上,本文进一步利用目前流行的多模式匹配算法——
Wu.Manber算法,改进了字符串匹配的过程,提出了一种新的算法——WM LZSS
算法。
算法的基本思想是利用文本的最近相关性,针对LZSS算法在压缩过程中存在 查找回溯的问题,采用多级匹配、Hash散列和跳跃查找的思想,使用多模式匹配技 术在更大范围内进行查找。一次针对多个模式进行匹配,避免了不必要的匹配,加 速了匹配的过程,有利于查找到更长的匹配信息,获得更高的压缩率。
本文详细介绍了基于多模式匹配的压缩算法的核心过程。即利用每一次匹配的 结果,动态建立shm表和hash表,得到模式库。然后,从文件中读取固定大小的 数据块,进行多模式匹配预处理,针对模式库中的所有的模式进行查找,得到匹配 数据(其中包括匹配位置和匹配长度等)。利用得到的匹配数据输出编码并完善树 结构。
最后,选取了通用的文本压缩测试文件作为测试数据,从文件的类型、文件的 大小、最小模式大小的选择等方面对压缩率进行了充分的测试,并与相关的压缩算 法进行了横向比较。实验证明,改进后算法的压缩率有了较明显的提高,同时该算 法还具有解压快速、算法简单的特点,特别适合在一次压缩多次解压的情况下使用。 关键词:无损数据压缩;LZSS算法;多模式匹配;WM多模式匹配;预处理
广东工业大学硕士学位论文ABSTRACT
广东工业大学硕士学位论文
ABSTRACT
In recent years,data compression becomes more and more important,because larger number of data has to be handled and transferred in our daily life.Text data is an important component of the processed data,SO the study of text compression has become a focus in data compression field.A compression algorithm based on
AB
AB STRACT
This paper introduces the key process of compression algorithm based on multiple matching.It is to build shift table and hash table using one matching result, and get pattern library.And then,read fixed size data blocks from the file,do multi-pattern matching preprocessing,and search all the patte
您可能关注的文档
- 基于多幅无序图像的三维重建技术-计算机科学与技术专业论文.docx
- 基于多个转换波形的非介入式压力检测方法研究-控制工程专业论文.docx
- 基于改进粒子群优化算法的船舶推力分配研究-控制理论与控制工程专业论文.docx
- 基于改进粒子群优化算法的核磁共振数据处理研究-电子与通信工程专业论文.docx
- 基于改进粒子群优化算法的机器人路径规划研究-模式识别与智能系统专业论文.docx
- 基于多功能量子点生物传感器的基础与实用初步研究-应用化学专业论文.docx
- 基于改进粒子群优化算法的热连轧动态变规格研究-控制科学与工程专业论文.docx
- 基于改进量子进化核聚类算法的图像分割-信号与信息处理专业论文.docx
- 基于多核Boosting多特征组合高光谱分类技术研究-大地测量学与测量工程专业论文.docx
- 基于改进量子粒子群的视觉跟踪方法-模式识别与智能系统专业论文.docx
- 基于多模式匹配的网络入侵检测系统关键技术实现-计算机系统结构专业论文.docx
- 基于多模式融合的人脸识别算法研究-电路与系统专业论文.docx
- 基于多模态参数结构损伤识别方法分析-海洋工程结构专业论文.docx
- 基于多模态参数结构损伤识别方法研究-固体力学专业论文.docx
- 基于改进时域法的桥梁移动荷载识别以及分布式光纤传感器在荷载识别中的应用-结构工程专业论文.docx
- 基于多模态的大学英语写作教学分析-教育技术学专业论文.docx
- 基于改进式遗传算法的多目标多约束问题求解-计算机软件与理论专业论文.docx
- 基于多模态功能磁共振图像的帕金森病临床亚型的影像标记及计算机辅助诊断研究-影像医学与核医学专业论文.docx
- 基于改进数据流和小波包分析的超短期负荷预测方法研究-电气工程专业论文.docx
- 基于改进随机森林的软件故障预测模型研究-计算机软件与理论专业论文.docx
原创力文档


文档评论(0)