- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Luene搜索引擎的研究与改进.doc
基于Lucene搜索引擎的研究与改进
Lucene是目前已经儿年,最受欢迎的免费Java的全文检索库。首先, 本文分析了珠光体系结构、索引机制、搜索机制;其次,它研允排序技术和如 何调整索引的性能;最后,文章提出丫新的检索排序算法。
关键字:索引;搜索;条款;因子;maxMergeDocs;满意程度;:新的算法
一、引言
Lucene是优秀的全文搜索引擎工具软件包和一个成熟的、免费的、开源 的项目,在Java中实现。然而,它不是一个完整的全文搜索引擎,而是全文搜 索引擎的体系结构。Lucene提供完整的搜索引擎,完整的索引引擎,部分文本 分析引擎(两种西方语言:英语和德语)[1]。它是项0 Apache雅加达家庭成员。 木文的结构如下:第二部分我们分析Lucene系统结构;第三部分研究Lucene 运行机制(索引和搜索);第四部分讨论如何调整索引的性能;第五部分我们对 分类技术的研宄,提出新的检索排序算法。在第六部分我们进行有关的新算法的 可行性分析;最后在第七部分得出结论。
二、LUCENE系统结构
作为一个优秀的全文搜索引擎,Lucene系统结构具有强烈的面向对象特征。 首先,Lucene系统定义一个索引文档格式已无关平台:第二,该系统的核心部 件R在抽象类,和混凝土平台实现设计用来抽象类实现;最后,它穿过层而向对 象处理,实现一种低耦合,高效率,便于二次开发的搜索引擎系统。Lucene体 系结构如图1所示:
Lucene査词器<Lwenc分析器.4-*文件索*索引,指针、9Lucene yjjpLucene 库一
Lucene査词器<
Lwenc分析器.
4-*
文件索*
索引,指针、
9
Lucene yjjp
Lucene 库一
索引核心,?
Lucene JtS*
基本的封装结构<■,
图1 Lucene索引结构
从图1,我们可以看到,Lucene系统由3个主要部分,即基本的封装结构、 索引核心、外部接口组成。索引核心也是系统的关键所在。Lucene系统所有源 代码都划分成7个模块(在Java包来表示),并且每包完成特定的功能。其核 心类软件包是组织 Apache. Lucene. analysis, org. apache lucene. index, org. apache lucene. search。每个包的功能,如表 1:
表lLuccnc各包功能
包
功能
org.apache lucene.search
搜索界面
org.apache lucene. index
索引接口
org. apache, lucene. analysis
语言分析器
org. apache, lucene. queryParser
查询分析器
org. apache, lucene. document
文件存储器
org. apache, lucene. store
底层I/O存储结构
org. apache, lucene.util
一些公共数据结构
三、LUCENE运行机制
Lucene主要包括两个功能:
?建立索引数据库和索引纯文木;
?根据用户的查询,搜索索引已经建立的数据库。
A.索引机制
分度机构是Lucene系统的核心部分。似乎可以简单地完成此操作的过程屮 哪些索引文档可能只能调用Lucene APT的几种方法。然而,它实际上隐藏巧妙 而复杂的索引过程背后的简单过程。图2显示了索引进程:
图2索引进程
从图2,我们可能会看到,索引过程分为预处理、分析文本、索引存储三个 主要的阶段。
1) 预处理
因为Lucene只可以纯文本文档编制索引,索引数据之前,索引的数据必须 转换成文木字符流是Lucene可以处理的格式。上述过程称为预处理,即预处理 用于从非文本文档中提取文本信息。在那之后,提取出来的数据用于创建卢塞恩 的文档和相应的字段。
2) 分析文本
创建字段的文档之后,Lucene不应直接进行索引操作,而是分析数据。分 析,在Luccrw中,是指过程的字段文本转换其最基本的索引表示形式、条款。 这些术语用來确定文件的匹配,查询搜索期间。分析仪通过执行任意数量的操作 上,可将文本包括分词、丢弃标点、从用小写字母的字符移除口音(也称为正常 化),删除常用词、减词到根窗体(词干),或改变词的基木形式(归类)成。 这一过程也称为标记,和大块的文本从文本流中救出被称为令牌。令牌,结合其 相关联的字段的名称,是术语。
3)索引存储
后建立条件。Lucene将调用达到多少的addDocument (文档)方法,并将
数据存储到索引数据库倒排的索引的数据结构。
索引的代码的示例如下所示: public class IndexWcb {
String口 ur1s={ “URL1”,“URL2” };
String[] con
您可能关注的文档
- 基于Blakbar平台的《面向对象程序设计》信息化课程设计与实现..doc
- 基于BP神经网络的PI控制器的设计.doc
- 基于BP神经网络的Q学习可变限速控制对拥堵路段交通流的优化.doc
- 基于Breakwn概率模型的快速路匝道与公交专用道协调控制研究.doc
- 基于BreezeAL的软件体系结构可靠性分析策略.doc
- 基于BRL(可扩展商业报告语言)的应用案例研究工作任务大纲(TR).doc
- 基于BSTING框架的视觉语音多模态情感识别检测方法.doc
- 基于BS架构人格测量量表软件系统设计和开发.doc
- 基于BS模式的中小企业信息管理系统的实现.doc
- 基于bs结构的在线图书销售系统工学学士毕业论文.doc
原创力文档


文档评论(0)