基于Huffman编码XML文件压缩存储算法研究与实现.docVIP

下载本文档

5
0
约4.71千字
约 11页
2018-08-28 发布于福建
举报
版权申诉

基于Huffman编码XML文件压缩存储算法研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Huffman编码XML文件压缩存储算法研究与实现

基于Huffman编码XML文件压缩存储算法研究与实现　　摘要：XML(可扩展标记语言) 是一种广泛应用于网络的数据存储交换格式，采用通用标记语言，具有良好的数据存储和分析能力,其缺点是XML文档存在结构冗余。伴随着XML在网络上应用的扩展，XML压缩成为目前关注的研究问题。从压缩、存储两方面研究了XML文件的压缩算法。根据重复出现权重，基于Huffman树生成对应的编码（0、1数字表示），减少XML文件结构重复导致的冗余。存储文件时，把n位编码（二进制）转化为一个ASCII字符存储（n不是8倍数即补位），节省了存储空间。大量实验证明：算法具有良好的可行性和研究价值。　　关键词：XML；Huffman树；压缩算法；存储；编码　　中图分类号：TP312文献标识码：A文章编号：1672??7800（2014）007??0041??03 　　　　0引言　　大数据是目前人们关注的热点。XML( Extensible Markup Language)作为一种简单、开放、可扩充的描述语言，丰富扩展标记完全可以描述不同类型的数据。XML应用到各种领域的数据存储和交换，解决了数据格式差异的障碍，统一了信息交换过程的数据格式。XML是一种拥有很好应用前景的数据存储方式，伴随着XML技术应用领域的不断扩大，XML出现的问题也越来越引起人们的关注。　　随着数据量的增加，XML标记冗余也增加，以至体积都大于相同数据内容的其它类型文档。随着XML文档在Web上应用的扩展，其大小也会随之增加，这实质上增加了数据的存储量、交换量及大量冗余的产生，尤其是海量数据XML文档资料，影响网络传输效率、内存消耗大。因此XML 文档的体积问题成为了阻碍XML 的因素。如果能够在服务器端传输前进行有效压缩，就可以节省传输占用带宽和时间。　　目前，压缩算法和软件很多，如典型的gzip和zip算法、LZW、Huffman、winzip、LSDX等，这些用于文本文档、图像、视频文件等压缩，但针对XML文档比较少，如XMill、XMLPPM。XML 压缩对于许多应用非常重要，但没有基于语法的 XML 压缩技术，也没有公开的XML 压缩器。对XML进行压缩、存储之后传输，逐渐成为学术界、商业软件开发商关注的问题。　　本文通过研究压缩原理和关键算法，提出一种针对XML文件格式的压缩存储方法。　　1相关压缩算法现状　　 LSDX编码是一种针对XML的前缀编码，采用数字表示XML标签节点的层次关系，字母表示节点的位置。LSDX编码表示方式：XN.Y，X是字母，表示节点父节点；N是数字，表示节点的层次；Y是字母，表示节点也是父节点的子节点。前缀编码是一种支持节点频繁插入、删除、更新的方式［1］。　　LZW压缩算法是一种新颖的压缩方法，采用了一种先进的串表压缩，将每个第一次出现的串放在一个串表中，用一个数字来表示串，压缩文件只存储数字，不存储串，如果这个字符串再次出现时，即用表示它的数字代替，从而使文件的压缩效率得到较大的提高。不管是在压缩还是在解压缩的过程中都能正确地建立这个串表，压缩或解压缩完成后，这个串表被丢弃［2］。　　XMill是第一个针对XML 文件数据的压缩方法, 它的基本思路是：首先将结构信息与数据项分离，并在利用GZip 压缩工具进行数据压缩之前对文档进行预压缩。为了达到优化XML文档压缩的目的，预压缩需要完成两个主要工作:①从文档数据中分离出结构信息；②将具有相关语义的数据项划分组别。　　为了完成第一个预压缩步骤, XMill 需采用字典编码方法将标签和属性名存储到一个字典中, 在文档中将这些标签和属性名用所在字典中的索引代替，从而完成压缩文档的基本结构框架,再将这一基本结构框架存入一个“结构容器”中；接着，该算法会应用近似匹配的方法决定数据项所应归属的“数据容器” ［3］。例如，可以将文字类和数字类数据分开存储，在压缩阶段，应用GZip 压缩工具对各容器进行分别压缩, 并在输出前将这些数据单元连接成一个输出文件。XMill 算法具有很好的压缩性能, 但用户访问被压缩的XML文档前必须解压缩整个文档，因此，该算法没有得到广泛应用, 但其思想却影响了其后的一些XML压缩算法。XMLPPM算法是一种多层次建模方法，可以解决人工干预的缺陷，但是压缩速度较慢［4］。　　2压缩与存储算法原理　　2.1压缩算法　　计算机数据存在两种形式的重复：短语形式的重复、单字节的重复。　　（1）短语形式重复。一个字节有256(0-255)种可能的取值，n个字节有255n种可能的情况，以指数方式增长。各种类型的数据都有出现重复的可能，但是，只有一部分字符信息重复出现，如：语法关键字会重复出现，进行短语压缩后，短语式重复的情况