- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《柠檬学院马延辉:如何提高ElastcSearch索引速度
我Google了下,大致给出的答案如下:使用bulk API初次索引的时候,把 replica 设置为 01.增大 threadpool.index.queue_size2.增大 indices.memory.index_buffer_size3.增大 index.translog.flush_threshold_ops4.增大 index.translog.sync_interval5.增大 index.engine.robin.refresh_interval这篇文章会讲述上面几个参数的原理,以及一些其他的思路。这些参数大体上是朝着两个方向优化的:●减少磁盘写入●增大构建索引处理资源一般而言,通过第二种方式的需要慎用,会对集群查询功能造成比较大的影响。这里还有两种形态的解决方案:●关闭一些特定场景并不需要的功能,比如Translog或者Version等●将部分计算挪到其他并行计算框架上,比如数据的分片计算等,都可以放到Spark上事先算好上面的参数都和什么有关●其中 5,6 属于 TransLog 相关。●4 则和Lucene相关●3 则因为ES里大量采用线程池,构建索引的时候,是有单独的线程池做处理的●7 的话个人认为影响不大● 2 的话,能够使用上的场景有限。个人认为Replica这块可以使用Kafka的ISR机制。所有数据还是都从Primary写和读。Replica尽量只作为备份数据。Translog为什么要有Translog? 因为Translog顺序写日志比构建索引更高效。我们不可能每加一条记录就Commit一次,这样会有大量的文件和磁盘IO产生。但是我们又想避免程序挂掉或者硬件故障而出现数据丢失,所以有了Translog,通常这种日志我们叫做Write Ahead Log。为了保证数据的完整性,ES默认是每次request结束后都会进行一次sync操作。具体可以查看如下方法:该方法会调用IndexShard.sync 方法进行文件落地。你也可以通过设置index.translog.durability=async 来完成异步落地。这里的异步其实可能会有一点点误导。前面是每次request结束后都会进行sync,这里的sync仅仅是将Translog落地。而无论你是否设置了async,都会执行如下操作:根据条件,主要是每隔sync_interval(5s) ,如果flush_threshold_ops(Integer.MAX_VALUE),flush_threshold_size(512m),flush_threshold_period(30m) 满足对应的条件,则进行flush操作,这里除了对Translog进行Commit以外,也对索引进行了Commit。所以如果你是海量的日志,可以容忍发生故障时丢失一定的数据,那么完全可以设置,index.translog.durability=async,并且将前面提到的flush*相关的参数调大。而极端情况,你还可以有两个选择:● 设置index.translog.durability=async,接着设置index.translog.disable_flush=true进行禁用定时flush。然后你可以通过应用程序自己手动来控制flush。● 通过改写ES 去掉Translog日志相关的功能。当然,如果去掉Translog日志有两个风险点:Get最新数据会有点问题。因为根据ID Get最新数据是从Translog里拿的。我们知道ES通过Shard Replication 保证Node节点出现故障时出现数据的完整性。在Relocating的时候,Replica 从Primary 进行Recover时,Primary会先Snapshot Lucene,然后拷贝数据到Replica,最后通过回放Translog 保证数据的一致性。VersionVersion可以让ES实现并发修改,但是带来的性能影响也是极大的,这里主要有两块:需要访问索引里的版本号,触发磁盘读写锁机制目前而言,似乎没有办法直接关闭Version机制。你可以使用自增长ID并且在构建索引时,index 类型设置为create。这样可以跳过版本检查。这个场景主要应用于不可变日志导入,随着ES被越来越多的用来做日志分析,日志没有主键ID,所以使用自增ID是合适的,并且不会进行更新,使用一个固定的版本号也是合适的。而不可变日志往往是追求吞吐量。当然,如果有必要,我们也可以通过改写ES相关代码,禁用版本管理。分发代理ES是对索引进行了分片(Shard),然后数据被分发到不同的Shard。这样 查询和构建索引其实都存在一个问题:如果是构建索引,则需要对数据分拣,然后根据Shard分布分发到不同的Node节点上。如果是查询
您可能关注的文档
最近下载
- TCPRA 4000.9-2025 文化数据服务平台技术要求 第9部分:运维管理系统.docx VIP
- 2025年部编六上语文《草原》公开课教案教学设计【一等奖】.pdf VIP
- 《直播电商基础与实务》-教案 项目8直播电商平台运营实战-教案.doc
- 抗凝药物临床应用指南.pptx VIP
- 学堂在线《医学科研设计》作业单元考核答案.docx VIP
- 庞加莱猜想证明概述.pdf VIP
- 2024年秋季新人教版9年级上册化学全册课件.pptx
- 药物化学 磺胺类药物及抗菌增效剂 磺胺类药物及抗菌增效剂 电子教案.doc VIP
- 高中地理校本课程教案.docx VIP
- 2024年山东成人学士学位英语考试真题解析 .docx VIP
文档评论(0)