XML路径表达式的查询优化技术分析.docVIP

下载本文档

1
0
约5.85千字
约 6页
2017-10-15 发布于广东
举报
版权申诉

XML路径表达式的查询优化技术分析.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

XML路径表达式的查询优化技术分析.doc

　　XML路径表达式的查询优化技术分析摘要：XML查询语言的共同特点是利用路径表达式来导航XML文档的查询并返回指定路径所能访问到的节点集，因此路径表达式的查询优化是XML数据库查询优化的关键，本文详细分析了当前路径表达式查询的几种优化技术，指出了它们要解决的关键问题和主要技术特点。　　　　1　基本概念　　　　1.1　XML数据模型和XML数据模式　　一个XML文档树是一个有序标签树(如果考虑元素之间的应用关系则以XML文档的基本结构为图)，每个节点与一个元素或值(文本)相对应，边表示元素和子元素(或值)之间的嵌套关系。XML文档的数据模式是一个有向图，它为XML数据提供完整性约束。　　1.2　XML数据的编码方法　　到目前为止处理路径表达式查询有两种方法：一种是基于树遍历的方法，另一种不遍历文档树就可以快速决定节点之间结构关系的方法，元素之间结构关系的确定主要依赖于有效的XML节点编码方法。　　1.2.1　基于区域的编码方案　　目前，最常用的编码方法是区域编码方法，最先使用区域编码确定树节点之间的结构关系的是Dietz。它给每个节点赋予一个(pre,post)编码，其中，pre是节点的前序遍历值，post是节点的后序遍历值，对于任意两个不同的节点x和y，x是y的一个祖先当且仅当x.pre　　文献。给每个节点赋予一个(start,end)编码，一个节点的start和end值是该元素的开始和结尾的绝对物理或逻辑位移，如果一个节点的编码所覆盖的区域被另一个节点的编码所覆盖的区域完全包含，则这个节点是另一个节点的后代节点。为适用于多个文档查询和父子关系的确定，还可以将元素的编码扩展为(D，cid,start,end,levd)，Docid是文档的标识符，Level是节点在文档树中的层数。文献提出一种类似于区域编码方案——扩展的前序和后代范围编码，其目是的为了支持数据的动态插入和删除，每个节点被赋予一个(1der，size)，1der是节点的前序遍历序号。size表示节点所覆盖的范围，它可以是任意一个大于该节点后代节点总数的整数值。　　除了区域编码以外还有另外一种相对区域编码方，每个节点被赋予一个到其父节点的相对位移。这种编码可以转换成区域编码，其主要缺点是为了确定节点的绝对位置查询代价沿着查询路径从祖先节点到被查询节点逐步增加。　　1.2.2　基于前缀的编码方法　　不同于区域编码方法，基于前缀的编码方式保存路径信息。在这种编码方法中祖先后代关系和前缀子串的包含关系相对应。文献提出了K-ary编码，该方法通过增加虚节点把文档看成一个完全k分树，根据树的层次遍历顺序给树中的节点编码，在这种编码方法中节点的编码带有文档的结构信息。类似于K-ary编码，文献提出了一种特殊的PBiTree编码，这种编码方案是通过增加虚拟节点将文档树嵌入到一个完全二叉树中。这种编码的优点是可以利用完全二叉树的优良特性来计算节点间的结构关系。PBiTree中的虚拟节点起着—个占位符的作用，这样有利于数据的动态更新，同时它们对查询性能也有一定的影响。　　1.3　XML数据索引　　为了提高查询的性能，许多专家和学者都致力于索引的研究与开发。目前提出的索引有两种：一种是基于结构连接的索引；另一种是基于路径的索引。基于结构连接的索引M首先将文档树中的所有节点以的形式进行分解后存储在多张表中。这样，当处理查询//E1/E2/……/En时，对包含Ei(i=-1，…，m)的表按次序要进行多次连接操作得到查询结果。基于路径的索引则是以文档树为基本数据结构，按照路径将树中的节点进行拆分、合并等操作，索引结构仍然是一个树，使用这种索引处理查询//El/E2/……/En时，基本上要遍历整个索引树才能得到结果。文献提出了一种自适应的路径索引结构，这种索引利用频繁使用的路径来改善查询性能，并且这种索引可以随着查询工作量的不同而动态改变，从而有效地缩小了索引文件。　　　　2　路径表达式的查询处理方式　　　　2.1　树遍历方法　　最朴素的路径访问方法是树遍历的方法：一般采用自顶向下的方式遍历文档树，使用该方法进行查询时需要遍历某元素通往叶子节点的所有可能路径。为了减少树遍历的代价引入自底向上的方法，首先查找符合谓词条件的所有原子节点，然后再寻找它们的父节点。这种方法一般情况下比较简单、耗时较少。但对于符合谓词条件的节点数目很大而符合路径表达式的路径很少时，这种遍历方式的代价可能会高于自顶向下方式。一种折中的方法是同时按自顶向下和自底向上两种方法进行遍历，最后在路径的某个中间位置汇合，从而得到查询结果。当路径上某节点的扇人度(在文档中的)很大而符合谓词条件的原子节点很少时，该方法可以达到最优。在这种方法中优化路径表达