大连理工大学搜索引擎与文本挖掘课程设计说明搭建小型搜索引擎简介
从图中我们清楚的看到,Lucene的系统由基础结构封装、索引核心、对外接口三大部分组成。其中直接操作索引文件的索引核心又是系统的重点。Lucene的将所有源码分为了7个模块(在java语言中以包即package来表示),各个模块所属的系统部分也如上图所示。需要说明的是org.apache.lucene.queryPaser是做为org.apache.lucene.search的语法解析器存在,不被系统之外实际调用,因此这里没有当作对外接口看待,而是将之独立出来。 从面象对象的观点来考察,Lucene应用了最基本的一条程序设计准则:引入额外的抽象层以降低耦合性。首先,引入对索引文件的操作org.apache.lucene.store的封装,然后将索引部分的实现建立在(org.apache.lucene.index)其之上,完成对索引核心的抽象。在索引核心的基础上开始设计对外的接口org.apache.lucene.search与org.apache.lucene.analysis。在每一个局部细节上,比如某些常用的数据结构与算法上,Lucene也充分的应用了这一条准则。在高度的面向对象理论的支撑下,使得Lucene的实现容易理解,易于扩展。 * * * * * * 中文分词 对于中文,分词的作用实际上是要找出一个个的索引单位 例子:李明天天都准时上班 索引单位 字:李/明/天/
您可能关注的文档
- 大学网站建设方案策划简介.ppt
- 大学英语听说课程教学大纲简介.doc
- 大学生赛车梦碳纤维复合材料的应用简介.ppt
- 大学英语四六级翻译全解析简介.ppt
- 大学英语四级听力(听力技巧完整)简介.pptx
- 大学英语四级必背高频词组简介.docx
- 大学英语四级翻译简介.doc
- 大学英语四级考试做题技巧简介.ppt
- 大学英语四级考试详细介绍简介.ppt
- 大学英语拓展学习一门外语简介.ppt
- 清明节高中下学期主题班会课件.pptx
- 统编版语文一年级下册课件《语文园地三》.pptx
- 统编版语文一年级下册课件《语文园地六》.pptx
- 一例ECMO术患者的个案护理.pptx
- 2.12 辽宋夏金元时期经济的繁荣 课件 2025-2026学年统编版七年级历史下学期.pptx
- 一例重症肺炎患者改善肺功能的循证个案护理.pptx
- 青春不“翻车”:电动车安全小贴士 高中下学期主题班会.pptx
- 主动脉夹层破裂的急救护理.pptx
- Unit 3 My school calendar Part A let's spell 课件(内嵌音视频)2025-2026学年人教PEP版英语五年级下册.pptx
- 乳糜尿的微生物学分析.pptx
原创力文档

文档评论(0)