XML数据库存储与索引模式研究.docVIP

下载本文档

3
0
约2.56千字
约 5页
2016-12-11 发布于北京
举报
版权申诉

XML数据库存储与索引模式研究.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

XML数据库存储与索引模式研究本文重点介绍了1-index和基于磁盘的FB索引，以及基于磁盘的FB索引的构建方法，并对在其基础上的查询处理算法进行了总结和分析，望能够对同行业有一定的参考性价值。【关键词】XML 1-index FB索引可扩展标记语言XML（eXtensible Markup Language）是一门新兴的面向Internet应用的标记语言，是为在WEB上使用而优化的SGML子集。XML是一种简单、与平台无关并被广泛采用的标准，是用来定义其它语言的一种元语言。XML具有强大的描述能力，又有适应网络应用的简洁性，作为对SGML语言标准的一种改良，XML具有适于异构应用间数据共享，可以进行数据检索和提供多语种支持等特点。XML及其相关技术的研究不仅在数据库理论领域占有一席之地且其水平已成为衡量一个国家信息化程度的重要标准之一。目前很多XML索引技术已被提出，具体可以分为：（1）基于路径的XML索引方法，如DataGuide、1-index、A （k）索引、D（k）索引、FB索引等。（2）基于编码的XML 索引方法，如Anc_Desc_B + 、XR + XRStack 算法等。本文主要介绍了1-index以及FB索引。1 1-INDEX为了解决DataGuide 的上述两个问题，1-index提出“bisimulation”和“simulation”的概念。1-index 索引中将“相似”的节点存放在一个扩展集中，这可能造成DataGuide 中所有扩展集的节点总数是XML 数据图中节点总数的指数倍。两节点“相似”概念使得1-index 具有如下两个优点：（1）索引大小和XML数据图大小成线性关系。（2）索引的扩展集之间不相交，所有扩展集的节点总数和XML 数据图中节点总数相等。2 FB索引DataGuide 和1-index 保存XML 数据图中所有边的信息，可称为“覆盖索引”，因为它们可以直接通过索引进行查询而不必访问原来的数据。在本文里我们称child axis 为PC axis，descendant-or-self 为AD axis，我们称没有分支谓语的或AD axis为简单路径。DataGuide 和1-index只能进行简单路径查询，因此提出了the forward-and-backward index，简称FB索引可以被视为分支路径表达式查询的“覆盖索引”。在所有的XML索引中，FB索引是可以回答条件约束的最小索引。FB索引是已有的XML索引中最有效、最强大的一种，FB索引技术在不断的改进。基于路径索引的XML 查询方法只能够解决单路径查询，但路径索引的创建不受XML文档结构的约束，即XML 文档可以是树结构，也可以是图结构。基于编码方式下的XML 索引查询方法能够有效地解决分支路径查询，但是这种方法都对相应的XML 文档有要求，其所要查询的XML文档为树形结构。DataGuide的提出解决了这一问题。但是DataGuide仅限于一个常规表达式的查询，对于多个表达式的复杂查询不起作用。针对已提出的索引结构的不足，Tova Milo和Dan Suciu提出了模板索引。与以前的方法相比，T-INDEX有以下几方面的改进：（1）使交换空间普遍化。（2）“bisimulation”和“simulation”的提出使索引可以有效的建立。（3）索引的大小有保证。（4）与DataGuide相比它是一个完美的一般化的索引结构。1-index和2-index是模板索引的两个特殊的索引，模板索引是1-index和2-index的概括和一般化。对于每个在DB中的节点v，用Lv（DB）或Lv表示从根节点到节点v的路径字符集合：Lv（DB）={w|w=a1…an}， ? a path v0 …{v， v0 是根节点}。在DB中的节点v≡u则v≡u?Lv=Lu，我们用[v]来表示v的等价集合。这种方法效率低，有两个原因：（1）计算等价类需要花费大量的时间。（2）等价类之间存在重叠，浪费空间。为了解决构建开销问题，提出改进：v≈u?v≡u。1-index索引中提出了“bisimulation”和 “simulation”的概念。DB是一个数据图。节点间的一个二进制关系～是一个backwards bisimulation满足以下四点：（1）如果v～v’和v是根节点，那么v’也是根节点；（2）相反的，如果v～v’和v’是根节点，那么v也是根节点；（3）如果v～v’，那么对于任意边uv存在一个边u’v’，满足u～u’；（4）相反的，如果v～v’，那么对于任意边u’v’存在一个边uv，满足u～u’。通过广度遍历函数Bfsl（）对树进行层次遍历，然后通过merge（）函数对祖先节点相同的同层节点进行合并将XML数据建立成1-index树