基于Lucene和Heritrix全文检索引擎研究与应用.docVIP

基于Lucene和Heritrix全文检索引擎研究与应用.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene和Heritrix全文检索引擎研究与应用

基于Lucene和Heritrix全文检索引擎研究与应用   摘要:Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。Heritrix是一个开源的由Java开发的Web网络爬虫框架,用户可以使用它从网络上抓取想要搜索的资源。该文分析了Lucene的索引机制,探讨了Heritrix的结构框架,最后结合实例对基于Lucene和Heritrix技术的全文检索的应用进行深入研究。   关键词:Lucene;全文检索引擎;Heritrix   中图分类号:TP393.07文献标识码:A文章编号:1009-3044(2012)13-2962-03   Research and Application of Full-Text Searching Engine Based on Lucene and Heritrix   QING Xiu-hua   (School of Electronic Electrical Engineering, Wuhan Textile University, Wuhan 430073, China)   Abstract: Lucene is a full text indexing engine package written in Java language. It has high access speed, supports multi-user accesses and can be used in a cross platform way. Heritrix is an open source web spider explored by Java. Users can snatch information from Internet by using it. The searching mechanisms of Lucene were analysis and the frameworks of Heritrix were discussed in this paper. And finally, we developed an application to make a deep study to realize the full text searching based on Lucene.   Key words: Lucene; full text searching engine; Heritrix   1概述   随着Internet网上的信息呈几何级数式的增长,搜索引擎已经成为用户浏览网络信息的首选。传统的通用搜索引擎(Google、Yahoo以及国内的Baidu等),作为一个辅助用户查找信息的工具已经成为大多数互联网用户访问网络的入口。但是,这些通用性搜索引擎存在着一定的不足,例如:通用搜索引擎的信息量较大、搜索深度不够、查询不太准确等问题。在这种情况下,为了解决这些问题,垂直搜索引擎应运而生。垂直搜索引擎是针对某一领域或行业的专业搜索引擎,是搜索引擎的延伸,可以为搜索用户提供符合专业用户操作行为的信息服务方式。它的特点是“专、精、深”,并且具有较强的行业色彩,和通用搜索引擎的海量信息无序化相比,垂直搜索引擎更加具体和深入。该文主要阐述开源的Lucene技术和Heritrix技术的基本原理和使用方法,提出了整合Lucene与Heritrix使其与J2EE平台完全融合的方案,并实现了一个手???产品垂直搜索引擎系统。   2全文检索引擎开源框架   2.1全文搜索工具包Lucene   Lucene是一个用Java编写的高效率、可扩展的全文索引的引擎工具包。它是目前最受欢迎的开源信息检索包。Lucene定义了平台无关的索引文件结构,保证了平台无关性。它的另外一个优秀之处在于设计结构十分优良,将所有的核心类库设计成抽象基类,用户使用Lucene时再具体实现其对应的抽象类。此外,Lucene使用类进行包装,然后进行基于面向对象的多层封装,最后形成一个低耦合、与平台无关的、可以进行二次开发的开源框架。要想使用Lucene来进行我们的开发,首先需要对Lucene的内部结构有比较清楚的了解。Lucene的结构图如图1所示。   目前已经有较多的应用程序(例如Eclipse的帮助系统的搜索功能)的搜索功能是基于Lucene的,Lucene可以为文本类型的数据建立索引,只要把要索引的数据格式转化的文本类型的数据格式,Lucene就可以对该文档进行索引和搜索。例如如果要对一些HTML文档或PDF文档进行索引,首先就需要把这些文档转化成文本格式的,再将转化后的内容交给Lucene进行索引,然后将创建好的索引文件保存

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档