- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Lucene的图书搜索引擎的设计与实现
滨江学院
毕业论文(设计)
题 目 基于Lucene的图书搜索引擎的设计与实现
院 系 计算机系
专 业 软件工程
学生姓名
学 号
指导教师
职 称 教授
二O一O年 十二 月 三十 日
声 明
本人郑重声明:
持以“求实、创新”的科学精神从事研究工作。
本论文是我个人在导师指导下进行的研究工作和取得的研究成果。
本论文中除引文外,所有实验、数据和有关材料均是真实的。
本论文中除引文和致谢的内容外,没有抄袭其他人或其他机构已经发表或撰写过的研究成果。
其他同志对本研究所做的贡献均已在论文中作了声明并表示了谢意。
作者签名:
日 期:
目 录
1 引言 1
1.1 研究背景 1
1.2 图书搜索引擎的可行性分析 2
2 系统简介 2
2.1 项目名称 2
2.2 开发工具 2
2.2.1开发工具简介 2
2.3 搜索引擎简介 3
2.4 相关技术简介 3
2.4.1 Jsp简介 3
2.4.2 Servlet简介 4
2.4.3 lucene简介 5
2.4.4 Heritrix简介 6
3 系统设计 7
3.1 系统实现流程图 7
3.2 系统顺序图 8
3.3 系统状态图 9
3.4 数据库设计 9
3.4.1 数据库建立 9
3.4.2 数据库连接 10
3.5 索引建立 11
3.6 图书信息综合处理 12
4 系统实现 13
4.1 使用Heritrix抓取目标网站 13
4.1.1 选择目标网站 13
4.1.2 配置Heritrix、开始抓取 13
4.2 抓取内容的处理 16
4.2.1 用HTMLParser对网页内容建立索引 16
4.2.2 其他格式文档的处理 16
4.3 用Lucene为抓取的网站建立索引 16
4.4 搜索关键字 16
4.4.1 IndexSearcher 17
4.4.2 Query 17
4.4.3 Hits 17
4.4.4 Term 18
4.5搜索引擎的交互界面 18
4.5.1 DWR技术 18
4.5.2 前台界面 20
5 全文总结 21
6 致谢 21
参考文献 22
ABSTRACT 24
基于Lucene的图书搜索引擎
乔梁
南京信息工程大学滨江学院软件工程专业,南京 210044
摘要:随着网络的飞速发展,人们不仅仅使用互联网看视频、浏览新闻和网络聊天,更把网络当成一种信息查询的工具。其原因就在于网络上庞大的信息量使得人们足不出户就可以得到自己想要的信息。本文将设计基于Lucene+ Heritrix的图书搜索引擎。论文首先介绍了本项目的相关知识背景,简述了Lucene和Heritrix然后阐述了数据库设计,最后说明了系统的具体实现过程。本系统的开发工具采用的是MyEclipse和SQL Server2005。
关键词:Lucene;Heritrix;搜索引擎
1 引言
伴随着Internet技术的飞速发展,Web技术已经不局限于单纯地提供Lucene是一个开源的全文搜索引擎包,配合上Heritrix网络爬虫,再加上Jsp的调用部署就可以实现一个功能强大的搜索引擎。使用Heritrix从网络上爬取大量信息,然后使用Lucene建立索引,最后通过Jsp页面展示在用户面前。就这样一个网络全文搜索引擎整个工作流程就完成了。
1.1 研究背景
搜索,这两个字无疑是当今互联网业界最为流行的字眼之一。在 Baidu上输入“搜索引擎”这个关键字,可以找到3000多万的网页。在Google上查找时可以找到750万个网页。
Google的巨大成功让整个世界都把眼光投入到搜索引擎这个领域中。一夜间,各种各样的搜索服务席卷而来,从最初的Google、Yahoo到今天的Baidu、MSN、中搜、Sougou等,搜索引擎的品种越来越多,服务也越来越丰富。同时,伴随着Web2.0的疯狂普及,网络信息的查找速度成指数增长,各种各样的网站都需要为其加入检索功能,以满足用户的需要。另外,在企业级应用的市场上,全文信息检索的需求也一直在增加,各种文档处理、内容管理软件都需要加入全文检索的功能。
在这样的背景下,搜索引擎的技术迅速发展。各种讨论搜索的文章、杂志、论文铺天盖地,论坛和博客上的帖子也是层出不穷。一时间,搜索技术成为最热门的技术之一。
不过搜索引擎技术并不是一种大众技术,从其出现开始,就一直是一种高门槛的技术,他的后台包括学术领域的众多先进思想和设计,其涉及的学科包括自然语言处理、人工智能、离散数学、排列组合、编译原理等。因此设计一个
文档评论(0)