基于Lucene和Heritrix技术搜索引擎设计与实现.docVIP

下载本文档

1
0
约4.49千字
约 11页
2018-08-28 发布于福建
举报
版权申诉

基于Lucene和Heritrix技术搜索引擎设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Lucene和Heritrix技术搜索引擎设计与实现

基于Lucene和Heritrix技术搜索引擎设计与实现　　摘要:使用Lucene和Heritrix技术实现局域网站内搜索,该搜索引擎系统的后台完成了信息资源的抓取、建立镜像文件、建立索引、搜索等关键操作。本系统大量采用了第三方的工具,使得在文档格式的转换,分词的建立有了更好的准确度,更加符合人们日常习惯的说话方式,提高了用户查找所需要内容的命中率。　　关键词:Lucene;Heritrix;搜索引擎　　　　信息技术的不断发展,特别是互联网的迅速普及,深入到了人们生活的各个方面,改变了人们的生活方式和思维方式,方便了全球信息资源共享。搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把互联网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。其基本工作原理为: 　　(1)执行自动搜索程序,定期在网上收集相关的新网页或网站信息; 　　(2)利用自动标引程序和自动索引程序,通过扫描每一个网页中的每一个词(单元信息),建立起以词为单位的索引库; 　　(3)索引程序执行检索操作,采用相对简单的关键词匹配检索技术,根据检索入口词在每一个网页中出现的频率、概率及位置,对包含这些检索词的网页进行排序; 　　(4)输出排序的结果,并引导用户按得到的热链进一步搜索下去。　　搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能,同时也是“研究网站用户行为的一个有效工具”。高效的网站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。　　　　一、需求分析　　　　1.主要技术　　Heritrix是一个爬虫框架,可加入一些可互换的组件。它是一个由JAVA开发的、开源的Web网络爬虫,使用它从网络上抓取想要的资源。　　Lucene是Apache软件基金会Jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。　　Lucene和Heritrix是开源Java搜索引擎,应用日趋广泛,并适合于在本系统中应用。利用开源项目实现站内搜索,可以降低实现难度。　　2.开发环境　　本系统采用了传统架构jsp+javabean进行开发。系统的开发平台是在Windows下,主要开发工具:(1)jdk-6u16-windows-i586;(2)eclipse-jee-galileo-win32;(3)apache-tomcat-6.0.20。　　　　二、系统功能框架图　　　　用户请求到首页后,输入要查询的关键字点击搜索。系统返回和关键字相关页面的链接和相关摘要。用户点击想要查看的链接,系统链接到相应的页面。下面是系统的顺序图(见图1)和状态图(见图2)。　　　　　　三、系统功能实现　　　　后台作为本系统的核心部分,主要实现了目标网站信息资源的抓取,解析网页信息,构建产品的词库,最后进行数据处理与索引处理。　　1.使用Heritrix抓取目标网站　　本系统就是采用Heritrix,实现对目标网站的按需抓取。　　(1)选择目标网站　　这是一个很简单的过程。从技术角度看,选择网站的几点主要依据是:网站能够被Heritrix爬虫抓取。网站的信息不是使用Javascript动态生成的。网站的页面结构不应当经常变化,最好是使用一种动态模板生成的。基于以上三点依据,我选择了我们学校网站作为局域网中主要的抓取目标。　　(2)配置Heritrix、开始抓取　　在做好以上的准备工作之后,开始启动Heritrix进行任务的抓取。Heritrix的启动方式有多种,这里选择的是最常用的WebUI方式启动。在Eclipse中配置好Heritrix,运行org.archive.crawler.Heritri这个类。此时,在Heritrix的后台已经对服务的8080端口进行了监听,在浏览器中访问http://www.localhost:8080,就可以打开Heritrix的WebUI了。　　登陆成功添加任务之后,就可以对目标网站抓取了,因为配置了抓取固定目标网站相关的页面,所以抓取速度还是比较快的。最后Heritrix将抓取到内容建成了镜像文件,前期的准备已完成。　　2.设置Heritrix抓取网站自动生成的目录　　设置Heritrix抓取目标网站自动生成的目录部分截图如图3所示。　　　　其中被抓取的网站内容放在mirror目录下面。　　3.对抓取内容的处理　　(1)用HTMLParser对网页内容建立索引