基于SLCA的XML关键字查询技术研究-软件工程专业论文.docxVIP

基于SLCA的XML关键字查询技术研究-软件工程专业论文.docx

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SLCA的XML关键字查询技术研究-软件工程专业论文

摘 要 近年来,XML 数据已经成为互联网中数据交换事实上的标准。对 XML 数 据的管理也成为了学术界研究的重点。这其中,有关于 XML 数据的查询技术的 研究显得非常重要。基于 XML 数据的查询技术,可以分为 XML 结构化查询和 XML 关键字查询。由于 XML 结构化查询需要用户掌握一定的背景知识,越来 越多的用户更倾向于使用 XML 关键字查询。XML 数据分为普通 XML 数据和不 确定 XML 数据。随着互联网数据采集和处理技术的进步,普通 XML 数据已经 无法满足现实的需要,这是因为现实世界中的数据很多都是不确定的,即使用概 率来表示。在金融、通信、军事等领域中,不确定 XML 数据都有着广泛的应用。 所以,不确定 XML 数据的关键字查询算法同样是研究者们关注的重点。 XML 关键字查询算法都是基于特定的语义,而本文针对最经典的 SLCA 语 义,并结合普通 XML 数据和不确定 XML 数据分别提出解决方案。针对普通 XML 数据的关键字查询技术都是基于编码后的 XML 数据,而传统关键字查询算法所 用到的编码技术都是基于前缀编码。前缀编码技术在计算节点的公共祖先过程 中,采用诸位比较的方法,这种方法容易产生字符串重复比较问题,造成性能上 的低效。为了解决这一问题,本文提出了一种基于区间编码的 XML 关键字查询 算法 InSearch。该算法首先对区间编码后的 XML 数据构建区间索引结构 InIndex。 然后,针对每个关键字列表中的节点,选取最临近的节点进行比较计算出节点的 最小范围值,利用这个值查询区间索引结构,确定候选集合。最后,利用过滤规 则得到最终结果。在此基础上,基于跳表结构将 InSearch 算法进行改进,提出 S-InSearch 算法。该算法,使用跳表来保存节点的范围值,通过避免冗余的查询 操作,进一步的加快了获取 SLCA 节点的效率。 基于不确定 XML 数据,传统的关键字查询算法都是基于“栈”结构,需要 频繁的进栈、出栈操作,并且需要频繁的字符串比较操作,效率较低。针对这一问 题,本文提出保存节点编码和概率值的数据结构 ProList,并基于 ProList 提出不确定 XML 关键字查询算法 ProSearch。该算法首先初始化关键字对应的 ProList,然后 计算所有 ProList 得到结果节点,并通过计算节点路径概率和局部概率得到结果 节点的概率值。 本文针对所提出的 SLCA 查询算法设计并选取了经典算法进行对比实验。通 过设置不同的查询用例,将 InSearch 算法与经典算法 ILE 算法进行对比,并在 I 此基础上对比 S-InSearch 算法。将 ProSearch 算法与经典的 PrStack 算法进行对 比。通过理论分析以及实验结果的对比,证明了所提出的算法相比于经典算法具 有较高的效率。 关键词:XML;关键字查询;区间编码;InSearch;ProList II Abstract Recently, XML has become de facto standard of Internet data exchange. XML management has also become the focus of academic research. Among these, research on XML query technology is particularly important. For different query mode, XML query technology can be divided into structured XML queries and XML keyword search. To compare the XML structure that requires the users have a certain basic knowledge, more and more users are accustomed to XML keyword search. XML include common XML and uncertain XML. With the advancement of Internet data acquisition and processing technology, general XML data has been unable to meet the real needs since that a lot of real-world data are uncertain which expressed in terms of probabilities. Therefore, XML

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档