- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene的站内搜索引擎技术的研究与应用
【摘要】 随着互联网技术的快速发展,网络上的信息资源正以惊人的速度增长。出于信息化建设的需要,大量企事业单位都建立了自己的网站,以便向人们提供信息服务,以提高企业的知名度和服务质量。随着时间的推移,许多网站中存储了大量的信息,但是,相当多的网站没有自己的站内搜索引擎系统,这就有可能造成用户无法快速找到自己感兴趣的信息。尽管一些大型的web搜索引擎也向用户提供站内检索的功能。例如Google、百度、雅虎都向Web站点提供了支持站内搜索的机制。但是由于Web搜索引擎收录的Web页面只占因特网中可收录页面的三分之一左右,同时Web搜索引擎通常是经过一个固定的周期才刷新其收录的页面,这必然导致采用Web搜索引擎作为其站内搜索引擎的站点,其搜索结果质量差、不精确、更新慢、不能及时显示站内信息。因此,对于这些没有提供站内信息检索系统的网站,建立自己的站内信息检索系统成为了当务之急。在对搜索引擎系统、全文检索技术和Lucene开源工具包进行了深入研究的基础上,本文设计并实现了一个基于Lucene的站内搜索引擎系统。文中详细介绍了站内搜索引擎系统的需求分析、系统的整体组织架构、系统实现的开发工具以及系统各个功能...?更多还原
【Abstract】 With the rapid development of Internet technology, information resource on the internet is increasing at an astonishing rate. For the need of information construction, a lot of enterprises and institutions have set up their own websites, in order to provide information services to the users and improve their popularity and service quality. As time goes on, many websites stored a large amount of pages. However, few websites have their own intranet search engine system. In this condition, the user...?更多还原
【关键词】 搜索引擎; 全文检索; Lucene; 构建索引; 【Key words】 search engine; full-text retrieval; Lucene; indexing;
【索购全文】Q联系Q:138113721 Q联系Q: 139938848付费即发
目录
摘要 3-5
ABSTRACT 5-6
第一章 绪论 9-12
1.1 课题背景和意义 9-10
1.2 课题研究内容和章节安排 10-12
第二章 搜索引擎概述 12-20
2.1 信息检索与搜索引擎 12
2.2 搜索引擎的历史 12-13
2.3 搜索引擎的分类 13-15
2.4 搜索引擎的组成部分 15-17
2.5 搜索引擎的评价标准 17-18
2.6 搜索引擎的发展方向 18-19
2.7 本章小结 19-20
第三章 全文检索技术分析 20-31
3.1 全文检索技术概述 20
3.2 全文检索系统的工作原理 20-22
3.3 全文检索关键技术分析 22-30
3.3.1 中文分词技术 22-26
3.3.2 索引结构 26-28
3.3.3 排序算法 28-30
3.4 本章小结 30-31
第四章 Lucene分析 31-38
4.1 Lucene简介 31-32
4.2 Lucene的组织结构 32-35
4.3 Lucene索引文件结构 35-36
4.4 Lucene的评分机制 36-37
4.5 本章小结 37-38
第五章 站内搜索引擎系统的设计与实现 38-59
5.1 系统需求与开发环境 38-39
5.2 系统的整体组织结构 39-40
5.3 信息采集模块的设计与实现 40-47
5.3.1 网络爬虫系统概述 40-41
5.3.2 网络爬虫的架构 41-44
5.3.3 网络爬虫程序的实现 44-4
文档评论(0)