网站大量收购独家精品文档,联系QQ:2885784924

基于纯位置索引高效文档检索.doc

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于纯位置索引高效文档检索

本科生毕业论文 题目:(中文) 基于纯位置索引的 (英文) Efficiency Document Retrieval with Flat Position Index 姓 名: 学 号: 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 二○一一年十月一日 摘要 查询语句中的短语查询在现代搜索引擎中占据着较大比例。本文引入一种新的索引结构——纯位置索引(flat position index)结构去处理短语查询。首先,本文对纯位置索引结构及其实现进行介绍;同时,本文提出了一种新的结构(CSLT)来辅助纯位置索引提高其检索效率;并且与在处理短语查询上进行比较实验,纯位置索引在倒排索引文件的空间消耗上会有约6.5%的减少,在短语查询上约有18%的查询速度的提升。此外,本文时下流行的一个国外微博客服务的网站推特(Twitter),根据推特对发布的文本信息(tweet)的最大字节数的限制来修改纯位置索引的索引结构,推特上与索引在布尔查询、短语查询、邻近查询三种查询方式下进行检索的时间性能比较,修改后的纯位置索引可以在涉及位置信息的查询(如短语查询和邻近查询)获得平均60%的查询速度的提升。基于实验结果,本文得出纯位置索引在处理涉及位置信息的查询具有高效性的结论。 关键词:纯位置索引 查询性能 推特检索 Abstract A large proportion of modern search engine queries contain phrases, namely a sequence of adjacent words. In this paper, we use a flat position index to make phrase queries evaluation more efficient. This paper presents a brief introduction of flat position index. In addition, a new structure called CSLT (cache sensitive look-up table) is proposed to assist to improve the performance of query processing. Experiments with GOV2 data collection show that flat position index can reduce the index size by almost 6.5% and speed up phrase querying about 18% compared with word-level index. Furthermore, this paper regards Twitter as a typical example of a collection with short documents, modifying flat position index based on Twitter’s main feature, say a limitation on tweet’s maximum length. Experiments with Edinburgh Twitter Corpus are implemented under three different kinds of query modes, including boolean query, phrase query and proximity query. Compared with word-level index, the modified flat position index achieves nearly 60% speed up for last two query modes, as well as 29% index size reduction. According to the two experiments, this paper shows that flat position index can achieve a better performance in processing queries with position demand, e.

文档评论(0)

bokegood + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档