网站大量收购独家精品文档,联系QQ:2885784924

搜索引擎检索系统的效率优化与效果评价研究v20.doc

搜索引擎检索系统的效率优化与效果评价研究v20.doc

  1. 1、本文档共115页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎检索系统的效率优化与效果评价研究v20

北京大学博士研究生学位论文 题目:搜索引擎检索系统的效率优化与效果评估研究 姓 名:彭波 学 号院 系:计算机科学技术系 专 业:计算机系统结构 研究方向:计算机网络与分布式系统 导 师:李晓明 教授 2004年5月 On Efficiency Optimization and Effectiveness Evaluation of Search Engine Retrieval System Dissertation Submitted to Peking University in partial fulfillment of the requirement For the degree of Doctor of Natural Science By Peng Bo ( Computer Science and Technology ) Dissertation Supervisor: Professor Xiaoming LI May, 2004 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 摘 要 本文研究工作是国家重点基础研究发展规划项目“网络环境下海量信息组织与处理的理论与方法研究”的一部分;针对Web搜索引擎应用背景,以构建大规模、高性能搜索引擎的检索系统为目标,系统地研究了检索系统的效率问题和效果评估问题,提出了若干关键技术,在大量实验和真实数据分析的基础上,得到了如下研究成果和结论: 1)提出了一种混合索引技术。该技术针对中文信息检索索引词选择的问题,通过结合中文自动分词与未登录词识别技术,把基本分词结果与在识别生成的扩展词典上的分词结果都选择作为索引词。通过在实际系统的应用实践,表明该技术能有效提高短语检索效率。 2)提出了一种倒排文件分块组织方法,它兼顾了文档编号序列和文档权值序列在检索系统性能中的不同作用,为综合优化系统性能提供了一个可操作的框架。和已有相关工作相比,这一研究基于搜索引擎应用背景,通过搜索引擎系统的实际数据,建立了一个检索性能模型,在此模型基础上研究分块组织策略对性能的影响和分块参数的优选。研究结果表明,这一分块组织策略可以有效提高检索效率。 3)倒排文件缓存是检索系统效率优化的重要技术。结合到大规模检索过程中磁盘I/O以及操作系统页面调度的特点,本文研究了倒排文件缓存优化设计中的性能指标选择、替换算法、页面大小和倒排文件组织方式对缓存性能影响等问题。研究结果为倒排文件缓存优化设计提供了指导。 4)针对搜索引擎检索系统效果评估中的若干问题,设计并实现了一个搜索引擎检索系统检索效果评估的实验环境。基于搜索引擎的用户查询日志,按查询类别构建了用户查询集合。对不同搜索引擎搜集系统搜集网页集合的差异、评测员结果之间的差异对评估实验的稳定性、连续性的相关度评分分值以及对应的评估指标、查询集合大小对评估实验的稳定性等问题进行了研究,结果对于进行有效的检索评估实验有重要指导意义。 5)基于对搜索引擎用户点击日志数据的分析,提出了一种自动构建评估实验相关结果集合与进行自动评估实验的方法。实验显示这一自动方法得到的结果和人工评估实验结果保持一致,并且对不同查询集合保持稳定。这一方法为解决大规模数据集上检索系统评估的可扩展性问题提供了一条有效的途径。 关键词:万维网,搜索引擎,信息检索,检索效率,性能,评估 Abstract Search engine is now an infrastructure of the information society. In this dissertation, we studied the performance of large-scale retrieval system of search engine; especially focused on efficiency optimization and effectiveness evaluation. The main contributions include: 1. A mixture index term selection method is proposed. By integrating the techniques of Chinese automatic word segmentation and unknown word detection, we select both the results of word segmentation on the basic dictionary

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档