对源自数据库的xml 文档的结构制导压缩技术#39;#39;.pdfVIP

对源自数据库的xml 文档的结构制导压缩技术#39;#39;.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机科学2002Vo1.29N0.8 对源于数据库的XML文档的结构制导压缩技术 ’‘ StructureGuidedCompressionforXMLDocumentinDB 陈敏敏 胡 蓉 唐常杰 黄晓冬 (四川大学计算机学院 成都610064) Abstract WiththedevelopmentofNetworkTechnology,XMLgrowsuptobeanimportant mediumforsearching,expressingandstoringtheWebdatabase.CompressionofXMLdocument isanimportantwaytopromotetheefficiencyofWebapplications.WedevelopaStructureGuid- edCompressModel(SGCM),whichhasthreesteps:Mining,Pre-compressionandCompres- sion.Thekeyalgorithmsofgeneratingacompresseddocument,aswellassomedetailedimple- mentationaregiven.Experimentshowsthatthemodelworkswell,thestoragecostisreduced. Keywords XML,Database,Web,StructureGuidedCompressModel(SGCM),DOM 头部的元数据(主题信息的开始位置,结构成分,各 I 引言 成分的类型长度等),Heap文件的后部以无格式数 网络技术的发展使得Web成为最方便、最丰富 据流保存主题数据。 的数据源,Web就是数据库,网络存储也成为新的 终压阶段 在以上阶段的处理基础上,对具有 服务模式和经济增长点。XML(eXtensibleMarkup 良好结构形式的Heap文件进行最终压缩。 Language)在表达查询、查询结果、结构和半结构数 SGCM是一个无损的压缩模型,我们对一类来 据、处理从数据分布、异种数据源传送来的数据方面 源于关系数据库的XML文档作了初步试验。结果 有特别的优势,同时带来对存储空间的巨大需求,如 表明在预压阶段,存储空间便节省了10%左右,并且 一个仅以逗点分隔的常见简单文本形式的统计文 预压的中间结果为高效访问XML文档中特定的内 件,转化为XML文件后,字节数可以增加到原来的 容提供了极大的方便。 5倍[[l]!造成数据存储和传输上的极大不便。 2 相关工作 本文针对XML文件的特殊性,利用其结构上 的特点提出了对源于数据库的XML文档的结构制 IBM尝试使用Burrows-Wheeler算法而非顺 导压缩技术(StructureGuidedCompressModel,简 序Lempel-Ziv算法构建_Tbzip2,文幻〔不是建立字 称SGCM)。其立论基础是: 符串重现的字典,而是通过对未压缩的源文件中相 (1)源于数据库的XML文档应用频繁,数量极 关字符串进行重组,得到比一般方法更优的压缩效 大,占了检索结果存储量的大部分; 率,但是实现起来花费时间稍长。同样由IBM提出 (2)源于数据库的XML文档包含的信息在原 的XMill算法,对XML文件结构做出一些变换处 来的数据库中以紧凑的格式存储,在转换为XML 理,生成相对较小的文件作为压缩基础,再尝试进一 时字节数可能扩大1-2倍,减小了每K字节的信息 步的压缩,从而获得更高的压缩比。Millau压缩模 密度,有潜在压缩前景; 型是对WBX

文档评论(0)

精品教学资料 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档