大连理工大学搜索引擎与文本挖掘课程设计说明搭建小型搜索引擎.ppt

下载文档 降价啦

12
0
约9.43千字
约 57页
2016-11-16 发布于湖北
举报
版权申诉
保障服务

大连理工大学搜索引擎与文本挖掘课程设计说明搭建小型搜索引擎.ppt

1、本文档共57页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

从图中我们清楚的看到，Lucene的系统由基础结构封装、索引核心、对外接口三大部分组成。其中直接操作索引文件的索引核心又是系统的重点。Lucene的将所有源码分为了7个模块（在java语言中以包即package来表示），各个模块所属的系统部分也如上图所示。需要说明的是org.apache.lucene.queryPaser是做为org.apache.lucene.search的语法解析器存在，不被系统之外实际调用，因此这里没有当作对外接口看待，而是将之独立出来。从面象对象的观点来考察，Lucene应用了最基本的一条程序设计准则：引入额外的抽象层以降低耦合性。首先，引入对索引文件的操作org.apache.lucene.store的封装，然后将索引部分的实现建立在（org.apache.lucene.index）其之上，完成对索引核心的抽象。在索引核心的基础上开始设计对外的接口org.apache.lucene.search与org.apache.lucene.analysis。在每一个局部细节上，比如某些常用的数据结构与算法上，Lucene也充分的应用了这一条准则。在高度的面向对象理论的支撑下，使得Lucene的实现容易理解，易于扩展。 * * * * * * 中文分词对于中文，分词的作用实际上是要找出一个个的索引单位例子：李明天天都准时上班索引单位字：李/明/天/天/都/准/时/上/班索引量太大，查全率百分百，但是查准率低；比如，查“明天” 这句话也会出来词：李明/天天/都/准时/上班索引量大大降低，查准率较高，查全率不是百分百，而且还会受分词错误的影响；比如，上面可能会切分成：李明天天都准时上班二字串：李明/明天/天天/天都/都准/准时/时上/上班去除停用词停用词(Stop words)：指那些出现频率高但是无重要意义；通常不会作为查询词出现的词，如“的”、“地”、“得”、“都”、“the”等等消除：通常是通过查表的方式去除，好处----大大减少索引量，坏处----有些平时的停用词在某些上下文可能有意义保留：索引空间很大检索模型什么叫检索？用户提交一个查询（Query），搜索引擎查找与该查询相关结果的过程。检索模型：布尔模型向量空间模型概率模型统计语言模型 …… 布尔模型简单的检索模型，建立在集合论和布尔代数的基础上。遵循两条基本规则: 每个索引词在一篇文档中只有两种状态：出现或不出现，对应权值为 0或1。查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。优点：简单，易于实现，能够保证较高的查全率。缺点：只能精确判断文档是否出现某一查询词，但并没有给出每个词的重要程度，不能给出相关性排序布尔模型 …… engine search 3 5 7 Search AND engine Search OR engine 3 7 1 3 4 5 7 9 …… …… 1 3 4 7 9 向量空间模型查询和文档都转化成标引项(Term)及其权重组成的向量表示康奈尔大学 Salton 1970年代提出并倡导，原型系统SMART 例如：文档1：(2006,1,世界杯,3,德国,1,举行,1)，文档2：(2002,1世界杯,2,韩国,1,日本,1) 查询：(2006,1,世界杯,2) 查询和文档进行向量的相似度计算：夹角余弦或者内积文档1：1*1+3*2=7 文档2：2*2=4 优点：简洁直观，效果好，可以应用到很多其他领域。缺点：理论上不够完善，标引项之间的独立性假设与实际不符向量空间模型权重影响因子： TF（Term Frequency）：Term的频度，TF越高权重越高 DF（Document Frequency）：Term的文档频度，DF越高区分度越低，因此权重也越低 IDF（Inverse DF）：逆文档频率文档的长度：长度归一化(Length Normalization) 查询扩展对用户的查询进行扩充：比如用户输入“计算机”，我们扩充一个词“电脑” 同义词扩展：同义词词典通过统计构造的同义词词典相关词扩展：相关词：“2006世界杯” 与“德国” 基于全局分析的查询扩展：对文档集合进行分析得到某种相关词典基于局部上下文的查询扩展基于概念的查询扩展查询重构：对用户的初始查询进行修改(可以是加词、减词，或者对于向量模型表示的初始查询进行权重的修改等等)，是比查询扩展更泛的一个概念 Lucene介绍 Lucene简介完整、高效、易用、易扩展的开源全文检索工具包性质：Apache License 作者：Doug Cutting 网址：/ 版本：Lucene 4.10 平台：跨平台支持