基于Luene搜索引擎的研究与改进.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Luene搜索引擎的研究与改进.doc

基于Lucene搜索引擎的研究与改进 Lucene是目前已经儿年,最受欢迎的免费Java的全文检索库。首先, 本文分析了珠光体系结构、索引机制、搜索机制;其次,它研允排序技术和如 何调整索引的性能;最后,文章提出丫新的检索排序算法。 关键字:索引;搜索;条款;因子;maxMergeDocs;满意程度;:新的算法 一、引言 Lucene是优秀的全文搜索引擎工具软件包和一个成熟的、免费的、开源 的项目,在Java中实现。然而,它不是一个完整的全文搜索引擎,而是全文搜 索引擎的体系结构。Lucene提供完整的搜索引擎,完整的索引引擎,部分文本 分析引擎(两种西方语言:英语和德语)[1]。它是项0 Apache雅加达家庭成员。 木文的结构如下:第二部分我们分析Lucene系统结构;第三部分研究Lucene 运行机制(索引和搜索);第四部分讨论如何调整索引的性能;第五部分我们对 分类技术的研宄,提出新的检索排序算法。在第六部分我们进行有关的新算法的 可行性分析;最后在第七部分得出结论。 二、LUCENE系统结构 作为一个优秀的全文搜索引擎,Lucene系统结构具有强烈的面向对象特征。 首先,Lucene系统定义一个索引文档格式已无关平台:第二,该系统的核心部 件R在抽象类,和混凝土平台实现设计用来抽象类实现;最后,它穿过层而向对 象处理,实现一种低耦合,高效率,便于二次开发的搜索引擎系统。Lucene体 系结构如图1所示: Lucene査词器<Lwenc分析器.4-*文件索*索引,指针、9Lucene yjjpLucene 库一 Lucene査词器< Lwenc分析器. 4-* 文件索* 索引,指针、 9 Lucene yjjp Lucene 库一 索引核心,? Lucene JtS* 基本的封装结构<■, 图1 Lucene索引结构 从图1,我们可以看到,Lucene系统由3个主要部分,即基本的封装结构、 索引核心、外部接口组成。索引核心也是系统的关键所在。Lucene系统所有源 代码都划分成7个模块(在Java包来表示),并且每包完成特定的功能。其核 心类软件包是组织 Apache. Lucene. analysis, org. apache lucene. index, org. apache lucene. search。每个包的功能,如表 1: 表lLuccnc各包功能 包 功能 org.apache lucene.search 搜索界面 org.apache lucene. index 索引接口 org. apache, lucene. analysis 语言分析器 org. apache, lucene. queryParser 查询分析器 org. apache, lucene. document 文件存储器 org. apache, lucene. store 底层I/O存储结构 org. apache, lucene.util 一些公共数据结构 三、LUCENE运行机制 Lucene主要包括两个功能: ?建立索引数据库和索引纯文木; ?根据用户的查询,搜索索引已经建立的数据库。 A.索引机制 分度机构是Lucene系统的核心部分。似乎可以简单地完成此操作的过程屮 哪些索引文档可能只能调用Lucene APT的几种方法。然而,它实际上隐藏巧妙 而复杂的索引过程背后的简单过程。图2显示了索引进程: 图2索引进程 从图2,我们可能会看到,索引过程分为预处理、分析文本、索引存储三个 主要的阶段。 1) 预处理 因为Lucene只可以纯文本文档编制索引,索引数据之前,索引的数据必须 转换成文木字符流是Lucene可以处理的格式。上述过程称为预处理,即预处理 用于从非文本文档中提取文本信息。在那之后,提取出来的数据用于创建卢塞恩 的文档和相应的字段。 2) 分析文本 创建字段的文档之后,Lucene不应直接进行索引操作,而是分析数据。分 析,在Luccrw中,是指过程的字段文本转换其最基本的索引表示形式、条款。 这些术语用來确定文件的匹配,查询搜索期间。分析仪通过执行任意数量的操作 上,可将文本包括分词、丢弃标点、从用小写字母的字符移除口音(也称为正常 化),删除常用词、减词到根窗体(词干),或改变词的基木形式(归类)成。 这一过程也称为标记,和大块的文本从文本流中救出被称为令牌。令牌,结合其 相关联的字段的名称,是术语。 3)索引存储 后建立条件。Lucene将调用达到多少的addDocument (文档)方法,并将 数据存储到索引数据库倒排的索引的数据结构。 索引的代码的示例如下所示: public class IndexWcb { String口 ur1s={ “URL1”,“URL2” }; String[] con

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档