《基于Lucene的全文信息检索系统的设计与实现》-毕业论文(设计).docVIP

《基于Lucene的全文信息检索系统的设计与实现》-毕业论文(设计).doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE l 摘 要 Web挖掘是知识时代人们对于从大量信息中获取知识的需要。对于搜索引擎来说,Web挖掘技术对第三代搜索引擎的发展起着中要的作用,同时也促进了网络信息获取技术向高精度、智能化方向发展。 本文分析现有搜索引擎重排序方法的不足,在Lucene原有文档相关度排序算法的基础上,采用了基于用户行为的二次检索Pagerank以及排序中内部文档比较的重排序算法,将检索结果中的文档按照相似度以从大到小的顺序呈现给用户。改进后文档相关度的重排序算法,显著的提高了系统的准确度。 关键词:重排序算法;Lucene;PageRank; 搜索引擎;页面排序 河南理工大学本科毕业论文 Abstract Abstract Web Mining is our request in gathering information from big scale knowledge. As for Search Engine, Web Mining technology plays an important role in development of the third generation of search engine, and meanwhile, it promotes the network information acquiring technology to a high precision and intelligent way. This paper analyzes the shortages of the existing re-ranking methods of the search engine, on the foundation of the Lucene original document relevance sort algorithm, It presents a re-ranking algorithm proposed an improved sorting algorithm by using Pagerank for the secondary search based on the inter-documents comparison and shows the documents to the users according to the descending order of the similarity. The improved document relevance sort algorithm enhanced the accuracy of the search system significantly. Key words:re-ranking methods;Lucene;PageRank;Search Engine; Web Page 河南理工大学本科毕业论文 目录 目 录 TOC \o 1-3 \h \z \u 第一章 前 言 1 1.1 研究背景 1 1.2 国内外研究现状 1 1.2.1 搜索引擎排名算法的国外研究概况 1 1. 2 .2 搜索引擎排名算法的国内研究情况 2 1.2.3 搜索引擎发展简史 3 1. 2. 4 几个著名的搜索引擎 4 1.3 搜索引擎 5 1.3.1 搜索引擎的特点 5 1.3.2 搜索引擎的分类 6 1.3.3 搜索引擎的系统架构 7 1.3.4 搜索引擎的缺陷 9 1.4 检索结果排序策略的地位和课题研究意义 12 1.5 本文研究的内容及论文的组织结构 12 1.5.1 论文的研究内容 12 1. 5. 2 论文的组织结构 13 第二章 信息检索关键技术 14 2.1 信息检索概述 14 2.2 L 15 2.2.1 L概述 15 2. 2 2 Lucene索引与搜索 15 第三章 经典检索结果排序算法研究 19 3.1 PageRank排序算法 19 3.2 PageRank算法的改进 20 3.3 文档相关度排序算法 21 3.3. 1 文档相关度评分机制 21 3.3.2 文档相关度排序算法的改进 24 3.4 本章小结 24 第四章 基于Lucene的全文信息检索系统的设计与实现 25 4.1

您可能关注的文档

文档评论(0)

老刘忙 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档