开放源代码的全文检索引擎Lucene.pdf

下载文档 降价啦

4
0
约2.93万字
约 27页
2021-11-09 发布于广东
举报
版权申诉
保障服务

开放源代码的全文检索引擎Lucene.pdf

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

开放源代码的全文检索引擎 Lucene ――介绍、系统结构与源码实现分析目录第一节全文检索系统与 Lucene 简介 1 一、什么是全文检索与全文检索系统？ 1 二、什么是 Lucene ？ 2 三、 Lucene 的应用、特点及优势 3 四、本文的重点问题与 cLucene 项目 4 第二节 Lucene 系统结构分析 4 一、系统结构组织 4 二、数据流分析 5 三、基于 Lucene 的应用开发 7 第三节 Lucene 索引文件格式分析 8 一、 Lucene 源码实现分析的说明 9 二、 Lucene 索引文件格式 9 三、一些公用的基础类 11 四、存储抽象 12 五、关于 cLucene 项目 15 第四节 Lucene 索引构建逻辑模块分析 15 一、绪论 15 二、对象体系与 UML图 16 三、数据流逻辑 26 四、关于 cLucene 项目 26 第一节全文检索系统与 Lucene 简介一、什么是全文检索与全文检索系统？全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引，检索时将词分解为字的组合。对于各种不同的语言而言，字有不同的含义，比如英文中字与词实际上是合一的，而中文中字与词有很大分别。按词检索指对文章中的词，即语义单位建立索引，检索时按词检索，并且可以处理同义项等。英文等西方文字由于按照空白切分词，因此实现上与按字处理类似，添加同义处理也很容易。中文等东方文字则需要切分字词，以达到按词索引的目的，关于这方面的问题，是当前全文检索技术尤其是中文全文检索技术中的难点，在此不做详述。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说，全文检索需要具备建立索引和提供查询的基本功能，此外现代的全文检索系统还需要具有方便的用户接口、面向 WWW [1] 的开发接口、二次应用开发接口等等。功能上，全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能，