- 38
- 0
- 约小于1千字
- 约 1页
- 2023-03-16 发布于陕西
- 举报
es 的倒排索引原理
ES (Elasticsearch)的倒排索引是其核心功能之一,用于支持
全文搜索和相关性排序。倒排索引是一种数据结构,可以快速地确定
文档中某个词项的位置和出现频率。
ES 的倒排索引主要有以下三个步骤:
1. 分词(Tokenization):将文档内容进行分词,生成词项列
表。ES 使用不同的分词器(Tokenizer)来处理不同类型的文本数据。
2. 建立索引(Indexing):对于每个词项,记录其在哪些文档
中出现过以及出现的位置信息。为了加快查询速度,ES 会将索引分成
多个分片(Shard),每个分片可以单独查询。
3. 查询(Querying):将用户查询进行分词,得到查询词项列
表。ES 会将查询词项与索引进行匹配,找到包含查询词项的文档,并
计算文档的相关性得分。得分高的文档会排在前面返回给用户。
在ES 中,倒排索引由一个名为 “倒排索引表”的数据结构来维
护。每个表项都包含一个词项(Term)和一个指向包含该词项的文档
列表的指针。在文档列表中,每个文档条目记录了文档 ID 和该词项
在文档中出现的位置信息。此外,ES 还会维护每个词项的文档频率
(Documen
原创力文档

文档评论(0)