毕业论文设计《基于Lucene的全文信息检索系统的设计与实现论文》.docVIP

  • 6
  • 0
  • 约2.89万字
  • 约 54页
  • 2018-10-02 发布于广西
  • 举报

毕业论文设计《基于Lucene的全文信息检索系统的设计与实现论文》.doc

摘 要 Web挖掘是知识时代人们对于从大量信息中获取知识的需要。对于搜索引擎来说,Web挖掘技术对第三代搜索引擎的发展起着中要的作用,同时也促进了网络信息获取技术向高精度、智能化方向发展。 本文分析现有搜索引擎重排序方法的不足,在Lucene原有文档相关度排序算法的基础上,采用了基于用户行为的二次检索Pagerank以及排序中内部文档比较的重排序算法,将检索结果中的文档按照相似度以从大到小的顺序呈现给用户。改进后文档相关度的重排序算法,显著的提高了系统的准确度。 关键词:重排序算法;Lucene;PageRank; 搜索引擎;页面排序 Abstract Web Mining is our request in gathering information from big scale knowledge. As for Search Engine, Web Mining technology plays an important role in development of the third generation of search engine, and meanwhile, it promotes the network information acquiring technology to a high precision and intelligent way. This paper analyzes the shortages of the existing re-ranking methods of the search engine, on the foundation of the Lucene original document relevance sort algorithm, It presents a re-ranking algorithm proposed an improved sorting algorithm by using Pagerank for the secondary search based on the inter-documents comparison and shows the documents to the users according to the descending order of the similarity. The improved document relevance sort algorithm enhanced the accuracy of the search system significantly. Key words:re-ranking methods;Lucene;PageRank;Search Engine; Web Page 目 录 第一章 前 言 1 1.1 研究背景 1 1.2 国内外研究现状 1 1.2.1 搜索引擎排名算法的国外研究概况 1 1. 2 .2 搜索引擎排名算法的国内研究情况 2 1.2.3 搜索引擎发展简史 3 1. 2. 4 几个著名的搜索引擎 4 1.3 搜索引擎 5 1.3.1 搜索引擎的特点 5 1.3.2 搜索引擎的分类 6 1.3.3 搜索引擎的系统架构 7 1.3.4 搜索引擎的缺陷 9 1.4 检索结果排序策略的地位和课题研究意义 12 1.5 本文研究的内容及论文的组织结构 12 1.5.1 论文的研究内容 12 1. 5. 2 论文的组织结构 13 第二章 信息检索关键技术 14 2.1 信息检索概述 14 2.2 L 15 2.2.1 L概述 15 2. 2 2 Lucene索引与搜索 15 第三章 经典检索结果排序算法研究 19 3.1 PageRank排序算法 19 3.2 PageRank算法的改进 20 3.3 文档相关度排序算法 21 3.3. 1 文档相关度评分机制 21 3.3.2 文档相关度排序算法的改进 24 3.4 本章小结 24 第四章 基于Lucene的全文信息检索系统的设计与实现 25 4.1 系统总体设计 25 4.1.1 总体设计思想 25 4.1.2 系统结构设计 25 4.2 系统环境及主要技术 26 4.2.1 运行环境 26 4.2.2 Ajax异步通信技术 26 4.3 系统功能模块详细设计 27 4.3.1 建立多种索引模块的设计 27 4.3.2 搜索界面模块的设计 29 4.4 系统优化和算法改进 30 4.4.1 索引预处理 30 4.4.2 关键词提示的操作优化 32 4.4.3 引入停止分词算法 33 4.5 应用与结果分析 34 4.5.1 三种索

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档