- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ElasticSearch 目录 Contents Analyzer 内部机 制 存储模型 节点分类 Write 实现原理 Read 实现原理 02 Analyzer 内部机制 04 01 字符过滤器( character filter ) 他们的任务实在分词前整理字符串,可以用来去掉 HTML 标签,或者将 转化成“ and ” 0 2 分词器( tokenization ) 一个简单的分词器遇到空格和标点 的时候,会将文本拆成词条 0 3 Token 过滤器( Token filtering ) 最后,词条按顺序通过每个 Token 过 滤器,这个过程可能会改变词条 (例如小写化,删除无用词或增加 同义词) Analyzer 内部机制 04 05 01 标准分析器( Standard Analyzer ) 02 简单分析器( Simple Analyzer ) 03 空白分析器 ( Whitespace Analyzer ) 04 停止分析器( Stop Analyzer ) 05 语言分析器( Language Analyzers ) 06 关键词分析器( Keyword Analyzer ) 07 08 模式分析器( Pattern Analyzer ) 指纹分析器( Fingerprint Analyzer ) 内置分析器 存储模型 04 01 设有两篇文章 1 和 2 文章 1 的内容为: Tom lives in Guangzhou,I live in Guangzhou too 文章 2 的内容为: He once lived in Shanghai. 0 2 经过处理后(分词,过滤无用词,小写化): 文章 1 的所有关键词为: [tom] [live] [guangzhou] [i] [live] [guangzhou] 文章 2 的所有关键词为: [he] [live] [shanghai] 0 3 建立倒排索引 关键词 文章号 [ 出现频率 ] 出现位置 guangzhou 1 [2] 3 , 6 he 2 [1] 1 i 1 [1] 4 live 1 [2] 2 , 5 2 [1] 2 shanghai 2 [1] 3 tom 1 [1] 1 节点分类 04 01 默认节点( node.master:true AND node.data:true ) 默认值,既有成为主节点的资格,又可以存储数据,还可以处理客户端的请求 0 2 Master 节点( node.master:true AND node.data:false ) 有成为主节点的资格,可以参与选举, master 节点负责维护整个集群状态并保证数据一致性 0 3 Data 节点( node.master:false AND node.data:true ) 存储数据节点,提供建立索引和查询索引的服务 0 3 Client 节点( node.master:false AND node.data:false ) 又称 coordinate 节点和 ingest 节点,这些节点只负责处理用户请求,实现请求转 发,负载均衡等功能 write( 写 )/create( 创建 ) 操作实现原理 07 协调节点 (coordinating node) 使用文档 ID (默认)将文档路由到对应的分片。 Elasticsearch 将文档 ID 以 murmur3 作为散列函数进行散列,并通过索引中的主分片数量 进行取模运算,以确定文档应被索引到哪个分片。 shard = hash(document_id) % (num_of_primary_shards) Read 的实现原理 08 获取阶段 (Fetch Phase) 查询阶段 (Query Phase)
文档评论(0)