- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE
l
摘 要
Web挖掘是知识时代人们对于从大量信息中获取知识的需要。对于搜索引擎来说,Web挖掘技术对第三代搜索引擎的发展起着中要的作用,同时也促进了网络信息获取技术向高精度、智能化方向发展。
本文分析现有搜索引擎重排序方法的不足,在Lucene原有文档相关度排序算法的基础上,采用了基于用户行为的二次检索Pagerank以及排序中内部文档比较的重排序算法,将检索结果中的文档按照相似度以从大到小的顺序呈现给用户。改进后文档相关度的重排序算法,显著的提高了系统的准确度。
关键词:重排序算法;Lucene;PageRank; 搜索引擎;页面排序
河南理工大学本科毕业论文 Abstract
Abstract
Web Mining is our request in gathering information from big scale knowledge. As for Search Engine, Web Mining technology plays an important role in development of the third generation of search engine, and meanwhile, it promotes the network information acquiring technology to a high precision and intelligent way.
This paper analyzes the shortages of the existing re-ranking methods of the search engine, on the foundation of the Lucene original document relevance sort algorithm, It presents a re-ranking algorithm proposed an improved sorting algorithm by using Pagerank for the secondary search based on the inter-documents comparison and shows the documents to the users according to the descending order of the similarity. The improved document relevance sort algorithm enhanced the accuracy of the search system significantly.
Key words:re-ranking methods;Lucene;PageRank;Search Engine;
Web Page
河南理工大学本科毕业论文 目录
目 录
TOC \o 1-3 \h \z \u 第一章 前 言 1
1.1 研究背景 1
1.2 国内外研究现状 1
1.2.1 搜索引擎排名算法的国外研究概况 1
1. 2 .2 搜索引擎排名算法的国内研究情况 2
1.2.3 搜索引擎发展简史 3
1. 2. 4 几个著名的搜索引擎 4
1.3 搜索引擎 5
1.3.1 搜索引擎的特点 5
1.3.2 搜索引擎的分类 6
1.3.3 搜索引擎的系统架构 7
1.3.4 搜索引擎的缺陷 9
1.4 检索结果排序策略的地位和课题研究意义 12
1.5 本文研究的内容及论文的组织结构 12
1.5.1 论文的研究内容 12
1. 5. 2 论文的组织结构 13
第二章 信息检索关键技术 14
2.1 信息检索概述 14
2.2 L 15
2.2.1 L概述 15
2. 2 2 Lucene索引与搜索 15
第三章 经典检索结果排序算法研究 19
3.1 PageRank排序算法 19
3.2 PageRank算法的改进 20
3.3 文档相关度排序算法 21
3.3. 1 文档相关度评分机制 21
3.3.2 文档相关度排序算法的改进 24
3.4 本章小结 24
第四章 基于Lucene的全文信息检索系统的设计与实现 25
4.1
您可能关注的文档
- 《基于CMOS的运算跨导放大器的电流镜电路仿真设计》-毕业论文(设计).doc
- 《基于Coreseek的站内搜索模块的设计与实现》-毕业论文(设计).doc
- 《基于Cortex-M0的DDS号发生器的设计》-毕业论文(设计).doc
- 《基于Cortex-M3的触摸屏计算器设计》-毕业论文(设计).doc
- 《基于CSocket联网扑克游戏开发》-毕业论文(设计).doc
- 《基于CuInS2纳米晶的光伏器件研究进展》-毕业论文(设计).doc
- 《基于DDS的精密正弦信号发生器的设计 (1)》-毕业论文(设计).doc
- 《基于DDS的精密正弦信号发生器的设计》-毕业论文(设计).doc
- 《基于DELPHI与单片机串行通信的步进电机控制》-毕业论文(设计).doc
- 《基于DSP的电力变压器微机保护系统初步设计》-毕业论文(设计).doc
- 《基于Matab的数字图像边缘检测算法研究》-毕业论文(设计).doc
- 《基于matlab的功率谱分析方法研究》-毕业论文(设计).doc
- 《基于MATLAB的光纤拉曼传感信号传播特性的模拟研究》-毕业论文(设计).doc
- 《基于MATLAB的连续信号的频谱分析》-毕业论文(设计).doc
- 《基于MATLAB的信号波形与频谱分析》-毕业论文(设计).doc
- 《基于Matlab分析双音频电话的拨号频谱》-毕业论文(设计).doc
- 《基于Matlab函数编程在电路中的分析与应用》-毕业论文(设计).doc
- 《基于matlab图像去噪方法的实现与研究》-毕业论文(设计).doc
- 《基于MATLAB用小波收缩去噪》-毕业论文(设计).doc
- 《基于MCGS双容水箱的液位控制系统的设计》-毕业论文(设计).doc
文档评论(0)