- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Java全文检索引擎Lucene分析与研究
基于Java全文检索引擎Lucene分析与研究
摘要:Lucene 是一个用Java 写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。介绍了基于Java的全文检索引擎Lucene,包括下载与配置,以及基本概念与实现机制,然后将Lucene与传统数据库系统的输入输出机制与查询技术作了比较。
关键词:传统数据库系统;全文检索;Java; Lucene
中图分类号:TP393文献标识码:A 文章编号:1009-3044(2008)20-30231-03
Research on the Full Text Retrieval Engine Lucene Based on Java
LIANG Yong-lin
(Shaoguan University, Shaoguan 512005,China)
Abstract: Lucene is a fulltextretrieval engine package written in Javalanguage. Ithashighaccess speed , supports multi-user accesses and can be used in a cross-platform way. This paper introduces the full text retrieval engine Lucene based on Java, including the downloading, Configuration, basic concepts and the implementation mechanism. Then, it is made compare the mechanism of input/output and query technology between Lucene and conventional database system.
key words: conventional database system; full text retrieval; Java; Lucene
随着科技的发展和经济的腾飞,图书馆、新闻出版、企业等单位电子数据激增,互联网的迅猛发展,可供人们选择的信息也迅速膨胀,如何有效利用日益增长的、海量的信息的问题变得越来越突出。 传统的检索方式越来越不符合发展的需要。人们对查询方式的要求也越来越高,已不局限于使用计算机的标引检索和布尔逻辑功能检索。全文检索系统因为检索功能强大、操作容易而越来越受到广大用户的欢迎。
1 Lucene的简介
Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目,也是目前最为流行的基于 Java 开源全文检索工具包(package)。
Lucene的作者Doug Cutting是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者,后来在Excite担任高级系统架构设计师,目前从事于一些Internet底层架构的研究。他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功能。目前已经有很多应用程序的搜索功能是基于 Lucene 的,比较著名的有:
1)Jive:WEB论坛系统;
2)Eyebrows:邮件列表HTML归档/浏览/查询系统;
3)Cocoon:基于XML的web发布框架,全文检索部分使用了Lucene
4)Eclipse:基于Java的开放开发平台,帮助部分的全文索引使用了Lucene
Lucene 能够为文本类型的数据建立索引,所以我们只要能把索引的目标数据格式转化成文本格式,Lucene 就能对文档进行索引和搜索。比如,要对 HTML 文档,PDF 文档进行索引的话,首先需要把 HTML 文档和 PDF 文档转化成文本格式,然后将转化后的内容交给 Lucene 进行索引,接着把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档格式使得 Lucene 能够适用于几乎所有的搜索应用程序[1]。
2 Lucene的下载和配置
2.1 Lucene的下载
Lucene在jakarta项目中的发布主页:
/Lucene/docs/index.html
以下网址主要针对windows用户,其它操作系统的用户可在jakarta项目发布主页
原创力文档


文档评论(0)