主流DBMS提供的XML数据索引对比研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主流DBMS提供的XML数据索引对比研究

目 录 1 引言 1 2 索引技术概论 1 2.1 XML索引及其分类 2 2.2 XML数据及XPath查询处理 3 2.3 XML索引分类 5 3 基于Sql Server2005的XML索引 7 3.1 XML索引在Sql Server2005中的支持 7 3.2 建立XML索引数据 7 3.2.1 主索引 8 3.2.2 次索引 8 3.2.3 内容索引 10 4 基于Oracle 10g DB的XML索引 11 4.1 什么是ORACLE XML数据库 11 4.2 索引XML内容 12 5 基于DB2 9 pureXML的XML索引 13 5.1 XML索引在DB2 9 pureXML中的支持 13 5.1.1 XML索引的SQL函数类型 14 5.1.2 理解DB 2中XPath表达式[7] 14 5.1.3 节点类型 15 5.2 DB2 9 pureXML中的XML索引技术 16 5.2.1 在路径中使用text()节点 16 5.2.2 使用the UNIQUE关键词 17 5.2.3 使用XML命名空间 18 6 实验对比研究 19 6.1 Sql Server 2005中的实验对比研究 19 6.1.1 实验方法 19 6.1.2 实验结果 21 6.2 Oracle 10g DB中的实验对比研究 21 6.2.1 实验方法 21 6.2.2 实验结果 24 6.3 DB2 9 pureXML中的实验对比研究 24 6.3.1 实验方法 24 6.3.2 实验结果 27 7 总结 29 致谢 30 参考文献 31 主流DBMS提供的XML数据索引对比研究 1 引言 XML(Extensible Markup Language),意为可扩展的标记语言,它是SGML的子集,是一套定义语义标记的规则,它也是一种元标记语言,即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。随着XML数据量的不断增长,要求更有效的数据管理能力和更快、更精确的查询。为了提高XML数据的查询效率,特别是结构查询的效率,要求有一种很有效的方法——XML索引技术。 XML(最新的规范为2004 年的XML1.1)(extensible markup language),即可扩展的标记语言,是一套定义语义标记的规范,其目标是能够定义计算机和人都能方便识别的数据类型.随着网络应用的快速发展,尤其是电子商务、Web服务等应用理念的进一步发展,使得XML类型的数据成为当前主流的数据形式.对XML据的管理也成为研究的热点.同时,随着互联网上XML文档的不断增多,对这些数据的使用越来越依赖于互联网搜索引擎强大的检索能力,对检索XML文档的搜索引擎的研究也就越迫切。如何将XML索引技术与现代主流关系数据库(ORACLE 10G, MICROSOFT SQL SERVER 2005和IBM DB2 9)技术结合起来,使得检索结果更为准确,也使得传输的数据量大大减小。 2 索引技术概论 在讨论索引技术时,主要考虑两方面的问题:一是索引的对象,既在什么数据上面建索引;二是索引的组织结构。下面分别讨论这两方面的问题。 在关系世界中,索引的对象很简单,就是元组的某一属性。这是因为在关系数据库里面,只有一种结构—关系表,查询的时间直接查询表中的数据项。这种索引就是值索引。然而在XML数据库中,查询是多种多样的。有时是对XML文档中关键字的搜索,这类搜索可以用值索引来辅助;但是更多的是类似于XPath或XQuery那样的查询,这时搜索不仅涉及到值,还涉及到结构(如一个结点在文档树中的路径),因此,仅在某些值上建索引是不够的。在XML-enabled数据库里面,由于结构信息(如一个边的路径)往往分裂在几个表里面,因此无法对路径建索引,查找特定路径的结点往往是通过几个表间的连接(称为structural join或containment query)来实现的,这也是XML—enabled数据库效率低下的原因之一。考虑到这些因素,一般的纯XML数据库都对多个对象建索引,主要有:值索引,即在属性值或结点内容上面建索引;结点名索引,即在结点标记上面建立索引;边或路径索引,即在XML文档树的边上面建立索引。 再看索引的组织形式。在关系数据库中,索引的组织形式主要是B+树及其变体。B+树结构的优点是:它是平衡的,因而对数据项的访问代价是基本确定的;它是扁平的,因而搜索的时候深度不是太深,访问的磁盘I/O不会太多;它是插入,删除和查询时的效率都是较高的,因而综合性能是很好的。用B+树建立值索引毫无疑问是可行的,但是用它来管理XML文档的路径信息可能就不那么

您可能关注的文档

文档评论(0)

ligennv1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档