大连理工大学搜索引擎与文本挖掘课程设计说明搭建小型搜索引擎简介.ppt

大连理工大学搜索引擎与文本挖掘课程设计说明搭建小型搜索引擎简介.ppt

大连理工大学搜索引擎与文本挖掘课程设计说明搭建小型搜索引擎简介

从图中我们清楚的看到,Lucene的系统由基础结构封装、索引核心、对外接口三大部分组成。其中直接操作索引文件的索引核心又是系统的重点。Lucene的将所有源码分为了7个模块(在java语言中以包即package来表示),各个模块所属的系统部分也如上图所示。需要说明的是org.apache.lucene.queryPaser是做为org.apache.lucene.search的语法解析器存在,不被系统之外实际调用,因此这里没有当作对外接口看待,而是将之独立出来。 从面象对象的观点来考察,Lucene应用了最基本的一条程序设计准则:引入额外的抽象层以降低耦合性。首先,引入对索引文件的操作org.apache.lucene.store的封装,然后将索引部分的实现建立在(org.apache.lucene.index)其之上,完成对索引核心的抽象。在索引核心的基础上开始设计对外的接口org.apache.lucene.search与org.apache.lucene.analysis。在每一个局部细节上,比如某些常用的数据结构与算法上,Lucene也充分的应用了这一条准则。在高度的面向对象理论的支撑下,使得Lucene的实现容易理解,易于扩展。 * * * * * * 中文分词 对于中文,分词的作用实际上是要找出一个个的索引单位 例子:李明天天都准时上班 索引单位 字:李/明/天/

文档评论(0)

1亿VIP精品文档

相关文档