- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Lucene
软件开发计划书
北京航空航天大学
2016-4-09
目 录
1引言 1
1.1编写目的 1
1.2 背景 1
1.3定义 1
1.4参考资料 2
2 项目概述 2
2.1工作内容 2
2.2主要参加人员 3
2.3产品 3
2.3.1程序 3
2.3.2文件 3
2.4验收标准 3
2.5完成项目的最迟期限 3
2.6本计划的批准者和批准日期 3
3实施计划 4
3.1工作任务的分解与人员分工 4
3.2各个任务判断标准和方法 4
3.3 组织形式 4
3.4进度 4
3.4预算 5
3.5关键问题 5
4支持条件 5
4.1计算机系统支持 5
软件需求说明书
1引言
1.1编写目的
为了便于协调组内成员进行后期的工作,对项目进行跟踪和监控,对任务的进度进行安排与调控,故对后期工作进行计划。提出需求指导后续工作
1.2 系统概述
Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。
目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档,PDF 文档进行索引的话你就首先需要把 HTML 文档和 PDF 文档转化成文本格式的,然后将转化后的内容交给 Lucene 进行索引,然后把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档的格式也使 Lucene 能够几乎适用于所有的搜索应用程序。
图 1 表示了搜索应用程序和 Lucene 之间的关系,也反映了利用 Lucene 构建搜索应用程序的流程:
1搜索应用程序和 Lucene 之间的关系
1.3文档概述
文档用途:本文档主要是介绍Lucene系统需求及规格说明。 主要内容:
(?以用例图、状态图的形式给出 Lucene系统功能需求的分解结构,并对用例模型中的参与者和用例进行详细的描述,其中主要包括软件系统的用 例模型、系统的核心流程等;
(?使用 RUCM 模型对功能需求进行建模;
(?描述了与此次系统实施相关的硬件环境的一些要求;
(?描述了与此系统实施相关的软件环境的要求;
1.4术语和缩略语
编号 术语 英文 说明 1 UCM UCM 用例建模 2 RUCM RUCM 限制性用例模型 3 索引 Index 在 Lucene 中一个索引是放在一个文件夹中 4 段 Segment 一个索引可以包含多个段,段与段之间是独立的,添加新文档可以生成新的段,不同的段可以合并。 5 文档 Document 文档是我们建索引的基本单位,不同的文档是保存在不同的段中的,一个段可以包含多篇文档。 6 域 Field 一篇文档包含不同类型的信息,可以分开索引,比如标题,时间,正文,作者等,都可以保存在不同的域里。 7 前缀后缀规则 Prefix+Suffix 所谓前缀后缀规则,即当某个词和前一个词有共同的前缀的时候,后面的词仅仅保存前缀在词中的偏移,以及除前缀以外的字符串(称为后缀)。 8 差值规则 Delta 所谓差值规则(Delta)就是先后保存两个整数的时候,后面的整数仅仅保存和前面整数的差即可。 9
词元 Token 将文档分词并且标点符号和停词,得到一个个单独的单词 10 词 Term 经Token经过过滤后,得到的、词根形式单词。 11 Stop word 一种语言中最普通的的一些单词,由于没有特殊的意义,因而大多数情况下不能成为搜索的关键词,例如“this””, “the”等。 分词组件 Tokenizer 将文档进行的组件。 语言处理组件 将Token串过滤的组件。
《Lucene原理与代码分析完整版》
3功能需求
3.1软件功能分析
Lucene 软件包的发布形式是一个 JAR 文件,下面我们分析一下这个 JAR 文件里面的主要的 JAVA 包,使读者对之有个初步的了解。
Package: org.apache.lucene.document这个包提供了一些为封装要索引的文档所需要的类,比如 Document, Field。这样,每一个文档最终被封装成了一个 Document 对象。
Package: org.apache.lucene.analysis这个包主要功能是对文档进行分词,因为文档在建立索引之前必须要进行分词,所以这个包的作用可以看成是为建立索
文档评论(0)