- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机科学2002Vo1.29N0.8
对源于数据库的XML文档的结构制导压缩技术 ’‘
StructureGuidedCompressionforXMLDocumentinDB
陈敏敏 胡 蓉 唐常杰 黄晓冬
(四川大学计算机学院 成都610064)
Abstract WiththedevelopmentofNetworkTechnology,XMLgrowsuptobeanimportant
mediumforsearching,expressingandstoringtheWebdatabase.CompressionofXMLdocument
isanimportantwaytopromotetheefficiencyofWebapplications.WedevelopaStructureGuid-
edCompressModel(SGCM),whichhasthreesteps:Mining,Pre-compressionandCompres-
sion.Thekeyalgorithmsofgeneratingacompresseddocument,aswellassomedetailedimple-
mentationaregiven.Experimentshowsthatthemodelworkswell,thestoragecostisreduced.
Keywords XML,Database,Web,StructureGuidedCompressModel(SGCM),DOM
头部的元数据(主题信息的开始位置,结构成分,各
I 引言
成分的类型长度等),Heap文件的后部以无格式数
网络技术的发展使得Web成为最方便、最丰富 据流保存主题数据。
的数据源,Web就是数据库,网络存储也成为新的 终压阶段 在以上阶段的处理基础上,对具有
服务模式和经济增长点。XML(eXtensibleMarkup 良好结构形式的Heap文件进行最终压缩。
Language)在表达查询、查询结果、结构和半结构数 SGCM是一个无损的压缩模型,我们对一类来
据、处理从数据分布、异种数据源传送来的数据方面 源于关系数据库的XML文档作了初步试验。结果
有特别的优势,同时带来对存储空间的巨大需求,如 表明在预压阶段,存储空间便节省了10%左右,并且
一个仅以逗点分隔的常见简单文本形式的统计文 预压的中间结果为高效访问XML文档中特定的内
件,转化为XML文件后,字节数可以增加到原来的 容提供了极大的方便。
5倍[[l]!造成数据存储和传输上的极大不便。
2 相关工作
本文针对XML文件的特殊性,利用其结构上
的特点提出了对源于数据库的XML文档的结构制 IBM尝试使用Burrows-Wheeler算法而非顺
导压缩技术(StructureGuidedCompressModel,简 序Lempel-Ziv算法构建_Tbzip2,文幻〔不是建立字
称SGCM)。其立论基础是: 符串重现的字典,而是通过对未压缩的源文件中相
(1)源于数据库的XML文档应用频繁,数量极 关字符串进行重组,得到比一般方法更优的压缩效
大,占了检索结果存储量的大部分; 率,但是实现起来花费时间稍长。同样由IBM提出
(2)源于数据库的XML文档包含的信息在原 的XMill算法,对XML文件结构做出一些变换处
来的数据库中以紧凑的格式存储,在转换为XML 理,生成相对较小的文件作为压缩基础,再尝试进一
时字节数可能扩大1-2倍,减小了每K字节的信息 步的压缩,从而获得更高的压缩比。Millau压缩模
密度,有潜在压缩前景; 型是对WBX
原创力文档


文档评论(0)