主流DBMS提供的XML数据索引对比研究.docVIP

下载本文档

4
0
约2.23万字
约 32页
2017-11-29 发布于江西
举报
版权申诉

主流DBMS提供的XML数据索引对比研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主流DBMS提供的XML数据索引对比研究

目录 1 引言 1 2 索引技术概论 1 2.1 XML索引及其分类 2 2.2 XML数据及XPath查询处理 3 2.3 XML索引分类 5 3 基于Sql Server2005的XML索引 7 3.1 XML索引在Sql Server2005中的支持 7 3.2 建立XML索引数据 7 3.2.1 主索引 8 3.2.2 次索引 8 3.2.3 内容索引 10 4 基于Oracle 10g DB的XML索引 11 4.1 什么是ORACLE XML数据库 11 4.2 索引XML内容 12 5 基于DB2 9 pureXML的XML索引 13 5.1 XML索引在DB2 9 pureXML中的支持 13 5.1.1 XML索引的SQL函数类型 14 5.1.2 理解DB 2中XPath表达式[7] 14 5.1.3 节点类型 15 5.2 DB2 9 pureXML中的XML索引技术 16 5.2.1 在路径中使用text()节点 16 5.2.2 使用the UNIQUE关键词 17 5.2.3 使用XML命名空间 18 6 实验对比研究 19 6.1 Sql Server 2005中的实验对比研究 19 6.1.1 实验方法 19 6.1.2 实验结果 21 6.2 Oracle 10g DB中的实验对比研究 21 6.2.1 实验方法 21 6.2.2 实验结果 24 6.3 DB2 9 pureXML中的实验对比研究 24 6.3.1 实验方法 24 6.3.2 实验结果 27 7 总结 29 致谢 30 参考文献 31 主流DBMS提供的XML数据索引对比研究 1 引言 XML(Extensible Markup Language)，意为可扩展的标记语言，它是SGML的子集，是一套定义语义标记的规则，它也是一种元标记语言，即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。随着XML数据量的不断增长，要求更有效的数据管理能力和更快、更精确的查询。为了提高XML数据的查询效率，特别是结构查询的效率，要求有一种很有效的方法——XML索引技术。 XML(最新的规范为2004 年的XML1.1)(extensible markup language),即可扩展的标记语言,是一套定义语义标记的规范,其目标是能够定义计算机和人都能方便识别的数据类型.随着网络应用的快速发展,尤其是电子商务、Web服务等应用理念的进一步发展,使得XML类型的数据成为当前主流的数据形式.对XML据的管理也成为研究的热点.同时，随着互联网上XML文档的不断增多，对这些数据的使用越来越依赖于互联网搜索引擎强大的检索能力，对检索XML文档的搜索引擎的研究也就越迫切。如何将XML索引技术与现代主流关系数据库(ORACLE 10G, MICROSOFT SQL SERVER 2005和IBM DB2 9)技术结合起来，使得检索结果更为准确，也使得传输的数据量大大减小。 2 索引技术概论在讨论索引技术时，主要考虑两方面的问题：一是索引的对象，既在什么数据上面建索引；二是索引的组织结构。下面分别讨论这两方面的问题。在关系世界中，索引的对象很简单，就是元组的某一属性。这是因为在关系数据库里面，只有一种结构—关系表，查询的时间直接查询表中的数据项。这种索引就是值索引。然而在XML数据库中，查询是多种多样的。有时是对XML文档中关键字的搜索，这类搜索可以用值索引来辅助；但是更多的是类似于XPath或XQuery那样的查询，这时搜索不仅涉及到值，还涉及到结构（如一个结点在文档树中的路径），因此，仅在某些值上建索引是不够的。在XML-enabled数据库里面，由于结构信息（如一个边的路径）往往分裂在几个表里面，因此无法对路径建索引，查找特定路径的结点往往是通过几个表间的连接（称为structural join或containment query）来实现的，这也是XML—enabled数据库效率低下的原因之一。考虑到这些因素，一般的纯XML数据库都对多个对象建索引，主要有：值索引，即在属性值或结点内容上面建索引；结点名索引，即在结点标记上面建立索引；边或路径索引，即在XML文档树的边上面建立索引。再看索引的组织形式。在关系数据库中，索引的组织形式主要是B+树及其变体。B+树结构的优点是：它是平衡的，因而对数据项的访问代价是基本确定的；它是扁平的，因而搜索的时候深度不是太深，访问的磁盘I/O不会太多；它是插入，删除和查询时的效率都是较高的，因而综合性能是很好的。用B+树建立值索引毫无疑问是可行的，但是用它来管理XML文档的路径信息可能就不那么