- 6
- 0
- 约2.89万字
- 约 54页
- 2018-10-02 发布于广西
- 举报
摘 要
Web挖掘是知识时代人们对于从大量信息中获取知识的需要。对于搜索引擎来说,Web挖掘技术对第三代搜索引擎的发展起着中要的作用,同时也促进了网络信息获取技术向高精度、智能化方向发展。
本文分析现有搜索引擎重排序方法的不足,在Lucene原有文档相关度排序算法的基础上,采用了基于用户行为的二次检索Pagerank以及排序中内部文档比较的重排序算法,将检索结果中的文档按照相似度以从大到小的顺序呈现给用户。改进后文档相关度的重排序算法,显著的提高了系统的准确度。
关键词:重排序算法;Lucene;PageRank; 搜索引擎;页面排序
Abstract
Web Mining is our request in gathering information from big scale knowledge. As for Search Engine, Web Mining technology plays an important role in development of the third generation of search engine, and meanwhile, it promotes the network information acquiring technology to a high precision and intelligent way.
This paper analyzes the shortages of the existing re-ranking methods of the search engine, on the foundation of the Lucene original document relevance sort algorithm, It presents a re-ranking algorithm proposed an improved sorting algorithm by using Pagerank for the secondary search based on the inter-documents comparison and shows the documents to the users according to the descending order of the similarity. The improved document relevance sort algorithm enhanced the accuracy of the search system significantly.
Key words:re-ranking methods;Lucene;PageRank;Search Engine;
Web Page
目 录
第一章 前 言 1
1.1 研究背景 1
1.2 国内外研究现状 1
1.2.1 搜索引擎排名算法的国外研究概况 1
1. 2 .2 搜索引擎排名算法的国内研究情况 2
1.2.3 搜索引擎发展简史 3
1. 2. 4 几个著名的搜索引擎 4
1.3 搜索引擎 5
1.3.1 搜索引擎的特点 5
1.3.2 搜索引擎的分类 6
1.3.3 搜索引擎的系统架构 7
1.3.4 搜索引擎的缺陷 9
1.4 检索结果排序策略的地位和课题研究意义 12
1.5 本文研究的内容及论文的组织结构 12
1.5.1 论文的研究内容 12
1. 5. 2 论文的组织结构 13
第二章 信息检索关键技术 14
2.1 信息检索概述 14
2.2 L 15
2.2.1 L概述 15
2. 2 2 Lucene索引与搜索 15
第三章 经典检索结果排序算法研究 19
3.1 PageRank排序算法 19
3.2 PageRank算法的改进 20
3.3 文档相关度排序算法 21
3.3. 1 文档相关度评分机制 21
3.3.2 文档相关度排序算法的改进 24
3.4 本章小结 24
第四章 基于Lucene的全文信息检索系统的设计与实现 25
4.1 系统总体设计 25
4.1.1 总体设计思想 25
4.1.2 系统结构设计 25
4.2 系统环境及主要技术 26
4.2.1 运行环境 26
4.2.2 Ajax异步通信技术 26
4.3 系统功能模块详细设计 27
4.3.1 建立多种索引模块的设计 27
4.3.2 搜索界面模块的设计 29
4.4 系统优化和算法改进 30
4.4.1 索引预处理 30
4.4.2 关键词提示的操作优化 32
4.4.3 引入停止分词算法 33
4.5 应用与结果分析 34
4.5.1 三种索
您可能关注的文档
- 毕业论文设计《古浪传统婚俗的禁忌与崇拜论文》.doc
- 毕业论文设计《古诗词的鉴赏及解题技巧》.doc
- 毕业论文设计《古诗词教学与中小学语文素质教育》.doc
- 毕业论文设计《古筝的主要流派与风格特征》.doc
- 毕业论文设计《古筝教学中如何提高学生的音乐表现力》.doc
- 毕业论文设计《谷氨酰胺转氨酶改性大豆蛋白聚乙烯醇复合薄膜性能研究》.doc
- 毕业论文设计《古诗词鉴赏网站的设计与实现论文》.doc
- 毕业论文设计《谷物加工日处理小麦200吨粉厂麦间工艺流程设计》.doc
- 毕业论文设计《谷香园月饼包装设计》.doc
- 毕业论文设计《股利分配政策问题研究—基于福耀玻璃股利分配案例的思考论文》.doc
- 毕业论文设计《基于LINUX的虚拟驱动设计论文》.doc
- 毕业论文设计《基于Lucene的索引机制的研究及改善》.doc
- 毕业论文设计《基于Lucene技术的个人资料管理系统论文》.doc
- 毕业论文设计《基于MATLAB_GUI_的线性动态电路分析论文》.doc
- 毕业论文设计《基于MACS的配浆过程DCS控制系统设计》.doc
- 毕业论文设计《基于Lucene的桌面搜索引擎》.doc
- 毕业论文设计《基于MATLAB的AM信号的调制解调技术的研究》.doc
- 毕业论文设计《基于MATLAB的FIR和IIR数字滤波器设计》.doc
- 毕业论文设计《基于Matlab的FIR滤波器设计》.doc
- 毕业论文设计《基于MatlabSimPowerSystem的交流调速系统的仿真论文》.doc
原创力文档

文档评论(0)