- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Huffman编码XML文件压缩存储算法研究与实现
基于Huffman编码XML文件压缩存储算法研究与实现
摘要:XML(可扩展标记语言) 是一种广泛应用于网络的数据存储交换格式,采用通用标记语言,具有良好的数据存储和分析能力,其缺点是XML文档存在结构冗余。伴随着XML在网络上应用的扩展,XML压缩成为目前关注的研究问题。从压缩、存储两方面研究了XML文件的压缩算法。根据重复出现权重,基于Huffman树生成对应的编码(0、1数字表示),减少XML文件结构重复导致的冗余。存储文件时,把n位编码(二进制)转化为一个ASCII字符存储(n不是8倍数即补位),节省了存储空间。大量实验证明:算法具有良好的可行性和研究价值。
关键词:XML;Huffman树;压缩算法;存储;编码
中图分类号:TP312文献标识码:A文章编号:1672??7800(2014)007??0041??03
0引言
大数据是目前人们关注的热点。XML( Extensible Markup Language)作为一种简单、开放、可扩充的描述语言,丰富扩展标记完全可以描述不同类型的数据。XML应用到各种领域的数据存储和交换,解决了数据格式差异的障碍,统一了信息交换过程的数据格式。XML是一种拥有很好应用前景的数据存储方式,伴随着XML技术应用领域的不断扩大,XML出现的问题也越来越引起人们的关注。
随着数据量的增加,XML标记冗余也增加,以至体积都大于相同数据内容的其它类型文档。随着XML文档在Web上应用的扩展,其大小也会随之增加,这实质上增加了数据的存储量、交换量及大量冗余的产生,尤其是海量数据XML文档资料,影响网络传输效率、内存消耗大。因此XML 文档的体积问题成为了阻碍XML 的因素。如果能够在服务器端传输前进行有效压缩,就可以节省传输占用带宽和时间。
目前,压缩算法和软件很多,如典型的gzip和zip算法、LZW、Huffman、winzip、LSDX等,这些用于文本文档、图像、视频文件等压缩,但针对XML文档比较少,如XMill、XMLPPM。XML 压缩对于许多应用非常重要,但没有基于语法的 XML 压缩技术,也没有公开的XML 压缩器。对XML进行压缩、存储之后传输,逐渐成为学术界、商业软件开发商关注的问题。
本文通过研究压缩原理和关键算法,提出一种针对XML文件格式的压缩存储方法。
1相关压缩算法现状
LSDX编码是一种针对XML的前缀编码,采用数字表示XML标签节点的层次关系,字母表示节点的位置。LSDX编码表示方式:XN.Y,X是字母,表示节点父节点;N是数字,表示节点的层次;Y是字母,表示节点也是父节点的子节点。前缀编码是一种支持节点频繁插入、删除、更新的方式[1]。
LZW压缩算法是一种新颖的压缩方法,采用了一种先进的串表压缩,将每个第一次出现的串放在一个串表中,用一个数字来表示串,压缩文件只存储数字,不存储串,如果这个字符串再次出现时,即用表示它的数字代替,从而使文件的压缩效率得到较大的提高。不管是在压缩还是在解压缩的过程中都能正确地建立这个串表,压缩或解压缩完成后,这个串表被丢弃[2]。
XMill是第一个针对XML 文件数据的压缩方法, 它的基本思路是:首先将结构信息与数据项分离,并在利用GZip 压缩工具进行数据压缩之前对文档进行预压缩。为了达到优化XML文档压缩的目的,预压缩需要完成两个主要工作:①从文档数据中分离出结构信息;②将具有相关语义的数据项划分组别。
为了完成第一个预压缩步骤, XMill 需采用字典编码方法将标签和属性名存储到一个字典中, 在文档中将这些标签和属性名用所在字典中的索引代替,从而完成压缩文档的基本结构框架,再将这一基本结构框架存入一个“结构容器”中;接着,该算法会应用近似匹配的方法决定数据项所应归属的“数据容器” [3]。例如,可以将文字类和数字类数据分开存储,在压缩阶段,应用GZip 压缩工具对各容器进行分别压缩, 并在输出前将这些数据单元连接成一个输出文件。XMill 算法具有很好的压缩性能, 但用户访问被压缩的XML文档前必须解压缩整个文档,因此,该算法没有得到广泛应用, 但其思想却影响了其后的一些XML压缩算法。XMLPPM算法是一种多层次建模方法,可以解决人工干预的缺陷,但是压缩速度较慢[4]。
2压缩与存储算法原理
2.1压缩算法
计算机数据存在两种形式的重复:短语形式的重复、单字节的重复。
(1)短语形式重复。一个字节有256(0-255)种可能的取值,n个字节有255n种可能的情况,以指数方式增长。各种类型的数据都有出现重复的可能,但是,只有一部分字符信息重复出现,如:语法关键字会重复出现,进行短语压缩后,短语式重复的情况
您可能关注的文档
- 基于Hadoop数据系统数字档案馆信息服务模式研究.doc
- 基于Hadoop数据中心在电力企业应用研究.doc
- 基于Hadoop数据聚类算法研究.doc
- 基于Hadoop智能电网监控系统设计与实现.doc
- 基于Hadoop构架系统平台.doc
- 基于Hadoop校园网盘设计与实现.doc
- 基于Hadoop海量xml索引查询方案.doc
- 基于Hadoop海量小文件存储方法研究.doc
- 基于Hadoop海量嘈杂数据决策树算法实现.doc
- 基于Hadoop海量数据存储技术研究.doc
- 2026年高考英语总复习讲义教师用书选择性必修第二册.pdf
- 2026年高考英语总复习讲义教师用书选择性必修第一册.pdf
- 2026年高考英语总复习讲义教师用书选择性必修第四册.pdf
- 2026年高考英语总复习讲义教师用书必修第一册.pdf
- 第13课 现代交通运输的新变化(任务型教学课件)-2025-2026学年高中历史选择性必修2(统编版).pptx
- 2.磁感应强度 磁通量-2025-2026学年高中物理必修第三册(人教版2019).pptx
- 4.2 携手促发展(教学课件)-2025-2026学年九年级道德与法治下册(统编版五四学制).pptx
- 专题02 光现象(培优讲义)(原卷版)(5考点 4实验 8命题突破 2个难点)-2026年中考物理一轮复习讲练(全国通用).docx
- 第三节 碳达峰与碳中和(教学课件)-2025-2026学年八年级化学全一册(鲁教版五四学制2024).pptx
- 中考作文之材料作文审题立意(解析版)-2026年中考语文一轮复习微专题讲练(湖南通用).docx
最近下载
- 7080后怀旧老课本-小学数学-第1册.pdf VIP
- 2025年广东省春季高考高三英语模拟试卷试题(含答案).docx VIP
- [(精华版)最新国家开放大学电大《建筑材料(A)》机考终结性9套真题题库.docx VIP
- 太原科技大学2022-2023学年《马克思主义基本原理概论》期末考试试卷(A卷)含参考答案.docx
- 蒂森MC2-H(MHC2主板) 1. ECOR控制系统 9.6.3 调试手册.pdf
- 太原科技大学2023-2024学年《马克思主义基本原理概论》期末考试试卷(A卷)含参考答案.docx
- 2025年福建省综合性评标专家库评标专家考试历年参考题库含答案详解.docx VIP
- TCCFAGS 037-2023 现制茶饮门店食品安全自查指引.pdf VIP
- 2024年福建省综合性评标专家库评标专家考试练习题及答案.docx VIP
- 太原科技大学2024-2025学年《马克思主义基本原理概论》期末考试试卷(A卷)含参考答案.docx
原创力文档


文档评论(0)