基于XML关键词检索的索引技术以及其相关算法研究.doc

基于XML关键词检索的索引技术以及其相关算法研究.doc

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硕士研究生学位论文 题目: 面向XML关键词检索的索引技术及其相关算法研究与实现 姓 名: 向永清 学 号: 院 系: 信息科学技术学院 专 业: 算机应用技术 研究方向: 智能商务与Web智能 导师姓名: 谢昆青 教授 邓志鸿 副教授 二0一0 年 六 月 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 摘要 自从XML诞生以来,越来越多的数据以XML文档格式存储和发布,XML已经成为Internet和Intranet上数据集成和交换的标准,被广泛应用于电子商务、内容管理、多媒体、数字图书馆以及中间件等众多的领域。如何高效的的索引、存储以及检索互联网上的XML数据成为一个具有显著现实应用意义的研究课题。 XML数据与传统文本数据的最大区别是:XML数据含有丰富的层次结构信息。这使得XML能够更加精确地描述数据以及数据之间的关系。如何将XML数据所包含的层次结构信息存入索引中并使之能支持高效的关键词检索算法成为XML关键词检索研究中的核心问题之一。 Dewey编码是一种能有效保存XML层次结构信息的方法,也是目前关键词检索中最流行的方法之一。研究人员提出了很多基于Dewey编码的检索算法,如栈算法、Scan Eager算法等。但是,Dewey编码有两个明显的不足:首先,XML元素的Dewey编码长度与XML元素在XML树中的深度成正比;其次,在很多算法中,比较两个Dewey编码大小的操作是一个原子操作,而比较两个Dewey编码大小的时间复杂度是O(N),其中N为杜威编码的长度,在处理大规模的XML数据集时,这将严重影响检索算法的性能。 为了克服Dewey编码的不足,本文提出了LAF编码策略,对于任意一个XML元素,其编码的长度恒为3;在LAF编码基础上,结合XML文档的自身特征,设计了一种能支持高效XML关键词检索算法的二层索引结构;最后,文章实现了一个基于堆的高效XML关键词检索算法HBA,HBA算法能有效支持各种XML检索语义模型。 通过在多个数据集上的对比实验,与传统的索引方法相比,基于LAF编码的二层索引方法具有较大的空间效率优势;与传统的关键词检索算法相比,HBA算法不仅具有较大的时间效率优势,而且HBA算法能有效支持各种XML关键词检索语义模型。 关键词:XML关键词检索; LAF编码; HBA; 二层索引; SLCA Research on Indexing Technique and Related Algorithm for XML Keyword Search Yongqing Xiang (Computer Application) Directed by Kunqing Xie and Zhihong Deng Abstract Since XML was proposed, more and more data has been stored and published in XML format. XML has become the standard of integration and exchange of data on the Internet and Intranet. XML documents are widely used in e-commerce, content management, multimedia, digital libraries, the middleware and many other fields. How to efficiently index, store and search XML data has become a very valuable problem. The biggest difference between XML data and plain text is that XML data has structure information besides content. This helps XML to describe data more accurately. How to code the hierarchy information into indices for supportting highly efficient keywor

您可能关注的文档

文档评论(0)

liyxi26 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档