- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
《Lucene 原理与代码分析完整版》.pdf
Lucene 原理与代码分析原理与代码分析
原理与代码分析原理与代码分析
觉先觉先 (forfuture1978)
觉先觉先
博客博客::
博客博客::
/forfuture1978
/forfuture1978/
/
邮箱邮箱::
邮箱邮箱::
forfuture1978@
目录目录
目录目录
目录 2
第一篇:原理篇 9
第一章:全文检索的基本原理 10
一、总论 10
二、索引里面究竟存些什么 13
三、如何创建索引 14
第一步:一些要索引的原文档(Document)。 14
第二步:将原文档传给分次组件(Tokenizer)。 14
第三步:将得到的词元(Token)传给语言处理组件(Linguistic Processor)。 15
第四步:将得到的词(Term)传给索引组件(Indexer)。 16
1. 利用得到的词(Term)创建一个字典。 16
2. 对字典按字母顺序进行排序。 17
3. 合并相同的词(Term)成为文档倒排(Posting List)链表。 18
四、如何对索引进行搜索? 20
第一步:用户输入查询语句。 21
第二步:对查询语句进行词法分析,语法分析,及语言处理。 21
1. 词法分析主要用来识别单词和关键字。 21
2. 语法分析主要是根据查询语句的语法规则来形成一棵语法树。 21
3. 语言处理同索引过程中的语言处理几乎相同。 .. 22
第三步:搜索索引,得到符合语法树的文档。 22
第四步:根据得到的文档和查询语句的相关性,对结果进行排序。 23
1. 计算权重(Term weight)的过程。 24
2. 判断 Term 之间的关系从而得到文档相关性的过程,也即向量空间模型的算法
(VSM) 。 25
第二章:Lucene 的总体架构 29
2
第二篇:代码分析篇 34
第三章:Lucene 的索引文件格式 35
一、基本概念 35
二、基本类型 38
三、基本规则 39
1. 前缀后缀规则(Prefix+Suffix) 39
2. 差值规则(Delta) 40
3. 或然跟随规则(A, B?) 41
4. 跳跃表规则(Skip list) 42
四、具体格式 44
4.1. 正向信息 44
4.1.1. 段的元数据信息(segments_N) 44
4.1.2. 域(Field)的元数据信息(.fnm) 60
4.1.3. 域(Field)的数据信息(.fdt,.fdx)
4.1.3. 词向量(Term Vector)的数据信息(.tvx,.tvd,.tvf) 69
4.2. 反向信息 72
4.2.1. 词典(tis)及词典索引(tii)信息 72
4.2.2. 文档号及词频(frq)信息 74
4.2.3. 词位置(prx)信息 78
4.3. 其他信息 79
4.3.1. 标准化因子文件(nrm) 79
您可能关注的文档
最近下载
- 部编版四年级语文上册期末复习1-8单元看拼音写词语(带答案).docx VIP
- T∕ZZB 1243-2019 66kV~220kV交流电缆用交联聚乙烯绝缘料.docx VIP
- 文化遗产数字化采集与数据库建设.docx VIP
- 部编版小学语文5上1-8单元(全册)看拼音写词语(巩固复习).pdf VIP
- 隔音声屏障工程设计方案(3篇).docx VIP
- 07MR403 城市道路-护坡.pdf VIP
- BCAT_0001—2018建设工程人工材料设备机械数据分类标准及编码规则 2018 207页.pdf VIP
- 食品安全事故应急处置培训.docx VIP
- (最新2025)三方抵账协议范本工程款抵房三方协议范本6篇.docx
- 老年患者营养评估与干预.pptx VIP
文档评论(0)