基于Huffman编码XML文件压缩存储算法研究与实现.docVIP

基于Huffman编码XML文件压缩存储算法研究与实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Huffman编码XML文件压缩存储算法研究与实现

基于Huffman编码XML文件压缩存储算法研究与实现   摘要:XML(可扩展标记语言) 是一种广泛应用于网络的数据存储交换格式,采用通用标记语言,具有良好的数据存储和分析能力,其缺点是XML文档存在结构冗余。伴随着XML在网络上应用的扩展,XML压缩成为目前关注的研究问题。从压缩、存储两方面研究了XML文件的压缩算法。根据重复出现权重,基于Huffman树生成对应的编码(0、1数字表示),减少XML文件结构重复导致的冗余。存储文件时,把n位编码(二进制)转化为一个ASCII字符存储(n不是8倍数即补位),节省了存储空间。大量实验证明:算法具有良好的可行性和研究价值。   关键词:XML;Huffman树;压缩算法;存储;编码   中图分类号:TP312文献标识码:A文章编号:1672??7800(2014)007??0041??03      0引言   大数据是目前人们关注的热点。XML( Extensible Markup Language)作为一种简单、开放、可扩充的描述语言,丰富扩展标记完全可以描述不同类型的数据。XML应用到各种领域的数据存储和交换,解决了数据格式差异的障碍,统一了信息交换过程的数据格式。XML是一种拥有很好应用前景的数据存储方式,伴随着XML技术应用领域的不断扩大,XML出现的问题也越来越引起人们的关注。   随着数据量的增加,XML标记冗余也增加,以至体积都大于相同数据内容的其它类型文档。随着XML文档在Web上应用的扩展,其大小也会随之增加,这实质上增加了数据的存储量、交换量及大量冗余的产生,尤其是海量数据XML文档资料,影响网络传输效率、内存消耗大。因此XML 文档的体积问题成为了阻碍XML 的因素。如果能够在服务器端传输前进行有效压缩,就可以节省传输占用带宽和时间。   目前,压缩算法和软件很多,如典型的gzip和zip算法、LZW、Huffman、winzip、LSDX等,这些用于文本文档、图像、视频文件等压缩,但针对XML文档比较少,如XMill、XMLPPM。XML 压缩对于许多应用非常重要,但没有基于语法的 XML 压缩技术,也没有公开的XML 压缩器。对XML进行压缩、存储之后传输,逐渐成为学术界、商业软件开发商关注的问题。   本文通过研究压缩原理和关键算法,提出一种针对XML文件格式的压缩存储方法。   1相关压缩算法现状    LSDX编码是一种针对XML的前缀编码,采用数字表示XML标签节点的层次关系,字母表示节点的位置。LSDX编码表示方式:XN.Y,X是字母,表示节点父节点;N是数字,表示节点的层次;Y是字母,表示节点也是父节点的子节点。前缀编码是一种支持节点频繁插入、删除、更新的方式[1]。   LZW压缩算法是一种新颖的压缩方法,采用了一种先进的串表压缩,将每个第一次出现的串放在一个串表中,用一个数字来表示串,压缩文件只存储数字,不存储串,如果这个字符串再次出现时,即用表示它的数字代替,从而使文件的压缩效率得到较大的提高。不管是在压缩还是在解压缩的过程中都能正确地建立这个串表,压缩或解压缩完成后,这个串表被丢弃[2]。   XMill是第一个针对XML 文件数据的压缩方法, 它的基本思路是:首先将结构信息与数据项分离,并在利用GZip 压缩工具进行数据压缩之前对文档进行预压缩。为了达到优化XML文档压缩的目的,预压缩需要完成两个主要工作:①从文档数据中分离出结构信息;②将具有相关语义的数据项划分组别。   为了完成第一个预压缩步骤, XMill 需采用字典编码方法将标签和属性名存储到一个字典中, 在文档中将这些标签和属性名用所在字典中的索引代替,从而完成压缩文档的基本结构框架,再将这一基本结构框架存入一个“结构容器”中;接着,该算法会应用近似匹配的方法决定数据项所应归属的“数据容器” [3]。例如,可以将文字类和数字类数据分开存储,在压缩阶段,应用GZip 压缩工具对各容器进行分别压缩, 并在输出前将这些数据单元连接成一个输出文件。XMill 算法具有很好的压缩性能, 但用户访问被压缩的XML文档前必须解压缩整个文档,因此,该算法没有得到广泛应用, 但其思想却影响了其后的一些XML压缩算法。XMLPPM算法是一种多层次建模方法,可以解决人工干预的缺陷,但是压缩速度较慢[4]。   2压缩与存储算法原理   2.1压缩算法   计算机数据存在两种形式的重复:短语形式的重复、单字节的重复。   (1)短语形式重复。一个字节有256(0-255)种可能的取值,n个字节有255n种可能的情况,以指数方式增长。各种类型的数据都有出现重复的可能,但是,只有一部分字符信息重复出现,如:语法关键字会重复出现,进行短语压缩后,短语式重复的情况

您可能关注的文档

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档