- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进的XML哈希路径索引技术研究.pdf
一种改进的XML 哈希路径索引技术研究
周敏,郭旺,林琳
中国矿业大学(北京)计算机系,北京(100083 )
E-mail: melia.zm@
摘 要:XML 已经成为一种Web 数据交换和信息集成的工具。随着XML 应用的普及,解
决好XML 文档的存储、管理和查询等问题特别是查询问题,已经成为一个急待解决的问题。
提高查询效率的一个重要手段就是建立有效的查询索引机制。为了有效地支持XML 查询,
特别是路径表达式查询,对XML 数据的各种索引技术和编码方案被提出,但是现有的索引
技术都存在着各种各样的不足。哈希路径索引树是一种新提出来的索引技术,本文针对其不
能查询从非根节点开始的查询和非完全路径查询的问题,引入了区间编码和 B-树索引,用
区间编码对哈希路径索引树进行编码,并对树中的标签节点建立B-树索引,建立BHR 两层
索引,解决了这两个问题。BHR 索引保留了原哈希路径索引树的所有优点,具有比较好的
扩展性,而且索引的维护相对容易。
关键词:哈希路径索引树,区间编码,B-树,BHR 索引
中图分类号:TP39
1. 引言
[1]
XML是可扩展标记语言 ,它是SGML的一个简化子集,它将SGML的丰富功能与HTML
的易用性结合到Web应用中,以一种开放的、自我描述的方式定义了数据结构,在描述数据
内容的同时能突出对结构的描述,从而体现出数据之间的关系。随着Internet和信息技术的
高速发展,XML 已经成为Internet上信息交换和表示的重要标准,XML数据的数量正在呈指
数级增长,解决好XML文档的存储、管理和查询等问题特别是查询问题,已经成为一个急
待解决的问题。
为了有效地支持XML查询,特别是路径表达式查询,对XML数据的各种索引技术和编
码方案被提出。但是现有的索引技术都存在着各种各样的不足。如:DataGuide[2]索引减少
了遍历路径查询时所需的部分节点,它对从根部遍历XML文档是有效的,但是不使用于一
般的从任意节点为开始的查询;1-index[3]索引的大小和XML数据图大小成线性关系;索引的
扩展集之间不相交,但是结构概括通常太大,加速估计效率不高;Fabric[4]索引是一种平衡
树,对索引的所有访问都只需要同样小的I/O资源,但是只适合于以文档根结点为起点的路
径查询,其它路径查询则要求查询多个索引或要经过一个预处理;XISS[5]索引对路径查询处
理,无须遍历XML文档,但是未利用XML文档的结构信息,因此会产生冗余的结构连接操
作。
哈希路径索引树[6]是一种新提出来的路径索引技术,索引树有着比较好的扩展性,它存
储节点的哈希码来代替直接存储节点的字符串,大大减少了索引文件所占的存储空间。哈希
路径索引树跟Index Fabric 比较,并不需要维护一张designator dictionary表,因此相对简单,
容易实现。同时,哈希码是一个32位的整数值,整数的比较比字符串比较速度也要快的多。
哈希路径索引适应了XML文档半结构化、层次多而且不固定的特性,具有很好的扩展性,
索引所需的存储空间相对比较少,查找时磁盘I/O只需一次的特点,可以在XML文档数据很
大时保持很好搜索速度和性能。然而,哈希路径索引树只能处理从根结点开始的完全路径查
询,而不能处理从非根节点开始的查询和不完全路径查询。
我们选择了哈希路径索引树,针对其所存在的问题,对索引进行改进,解决了以上问题。
- 1 -
2 .索引的改进过程
我们先介绍一下哈希路径索引树的结构,XML文档的一个节点相应生成一个索引树的
节点,索引树的非叶子节点存放着该节点在XML文档中的位置(或者本节点到其父节点的
偏移量),索引树的边存储着XML文档中父节点到其各个子节点路径的哈希码,索引树的叶
子节点存放XML节点数据的哈希码。
为了方便索引树的建立以及使用,我们仅对属性节点和元素
文档评论(0)