PARADISE索引系统的改进及应用 毕业论文.doc

PARADISE索引系统的改进及应用 毕业论文.doc

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硕士研究生学位论文 题目: PARADISE索引系统的改进及应用 姓 名: 学 号: 院 系: 信息科学技术学院 专 业: 计算机系统结构 研究方向: 搜索引擎与网络信息挖掘 导 师: 二〇一〇年 五月 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 摘 要 随着互联网信息的快速增长,搜索引擎的作用越来越重要。索引技术在网络服务中应用广泛,而索引系统是搜索引擎主要部分之一,它在搜索引擎中发挥着重要作用。基于倒排表的索引系统有着比较复杂的内部结构和逻辑,在设计和实现的时候有很多需要考虑的因素。 北京大学网络实验室独立开发了PARADISE系统,PARADISE是Platform for Applying, Researching And Developing Intelligent Search Engine的简称,它是一个开放式的搜索引擎平台,提供了一组可配置、可替换的工具,用户可以根据自己的需要,定制相应的系统。 在将PARADISE的索引系统应用到研究和工程领域的过程中,我们遇到了一些问题,针对这些问题,本文做了如下的一些工作: 1、重新设计并实现了PARADISE索引系统。针对前一个版本的诸多问题,我们将整个索引进行了重新设计和实现。这个过程中,我们增加了用于改善性能的的缓存模块;重新实现了存储模块、文档表示模块,并增加了很多新的功能和接口;对于顶层的倒排、字典、正排模块,则完全重新进行了设计和实现,包括索引文件格式、跳查机制、索引流程等等。 2、详细介绍了PARADISE索引的改进情况。这包括单机索引文档数量的增加、索引构建速度的提升、检索速度的提升、可扩展性的增强等等。 3、介绍了PARADISE索引系统的应用情况。首先,我们使用PARADISE参加的TREC 2009的Web Track评测,应用索引系统对较大规模的数据进行了处理。其次我们将索引系统应用到北京大学的校内搜索服务,取得了比较好的效果。 关键词:搜索引擎、PARADISE、索引系统、倒排表、索引改进 The Improvement and Applying of PARADISE Indexing System [Abstract] Along With the rapid growth of information in Internet, search engine is becoming more and more important. Indexing techniques are widely used in Web services, and the index system is one of the main parts of the search engine, which plays an important role. Index system which is based on inverted Posting-list has complex internal structure and logic, and there are many factors to be considered during the design and implementation of it. PARADISE is short for Platform for Applying, Researching And Developing Intelligent Search Engine, and its developed by CNDS Lab of Peking University independently. PARADISE is an open search engine platform that provides a set of configurable, replaceable tools, and users can customize a corresponding system as they need. We encountered some problems when applying PARADISE to the research or engineering fields. To address these issues, the following work is done in this paper: 1、PARADISE indexing system is re-designed

文档评论(0)

绿风 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档