百度Elasticsearch大数据分析实践.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
百度Elasticsearch大数据分析实践大纲背景介绍典型应用场景遇到的问题及经验分享对ES的优化与改进后期计划ES是啥有谁在用面向搜索(for full text search)WikipediaGithubQuoraFacebook面向分析 (for analytics)Goldman Sachs UbntFoursquare (LBS)Linkedin NetflixES在百度的使用定位 — OLAP文本数据分析结构化数据分析ReportingMultidimensionalAnalysis Text AnalysisSQL DBPaloSearch DBElasticSearchES在百度现状2013年10月开始使用目前覆盖百度内部20多个业务线包括casio、云分析、网盟、预测、文库、直达号、钱包、风控等单集群每天导入30TB+数据,总共每天60TB+单集群最大100台机器,200个ES节点共使用近300台机器,启动500+ES节点典型应用场景一:云分析业务AppHiveApp···APIElasticsearchLogStashHDFSKafkaHadoop ClientRsyslogMysqlOSweb···典型应用场景一:云分析业务主要挑战大量文本数据的分词及建立索引数万用户,索引分片过多,元数据过大fielddata占用大量内存,容易OOM任意多维度关键词聚合查询秒级返回典型应用场景一:云分析业务解决方案根据索引大小分别设置分片数,充分利用type合并索引除分词字段外,其他字段全部存储为doc valuemaster node、data node、client node 分离部署保守设置fielddata内存占用软硬限,及其他内存占用限制设置fielddata有效期典型应用场景一:云分析业务典型应用场景二:casio业务典型应用场景二:casio业务主要挑战字段不确定数据量较大,每天30TB+数据,24小时不间断导入小时级任意维度聚合分析毫秒级返回,天级秒级返回集群规模较大(100台机器),机器较旧,宕机为常态典型应用场景二:casio业务解决方案使用动态mapping自动匹配未知字段数据分发到所有节点批量导入全部使用doc value存储,减少内存消耗使用模板,分天级、小时级自动创建索引SSD与SATA分组,冷数据定期自动迁移典型应用场景二:casio业务POST /casio-machinesall{ instance:1001, double_kvs:{cpu:35.6}, long_kvs:{mem:12}}典型应用场景三:网盟DMP业务业务简介把百度内部数据(用户特征、历史浏览以及搜索数据等)开放给广告主,让广告主更好的定义精准受众,协助广告主制定投放策略,提升营销效果。主要挑战用户标签千万级别,相当于每张表数千万字段每次请求涉及数千维度的组合过滤,数亿条数据的分组聚合高并发,QPS 100以上要求平均响应时间为秒级典型应用场景三:网盟DMP业务解决方案通过ES的嵌套文档类型,将用户标签属性由key转换为value qt :1001:{datefreq:1},1002:{datefreq:2} hct : 1002:{dateag:25} dmp : {qt:[{key:1001, datefreq:1},{key:1002, datefreq:2}],hct:[{key:1002,dateag:25}]}配置total_shards_per_node参数,最大化均衡分片分布查询请求负载均衡到集群所有节点遇到的问题及经验分享集群规划 遇到的问题及经验分享索引规划根据机器数,磁盘数,索引大小等设置分片数,单个分片最好不超过10GB配置total_shards_per_node参数,限制每个index每个节点最多分配多少个分片内存溢出尽量使用doc value存储保守配置内存限制参数查询时限制size、from参数 遇到的问题及经验分享提升导入性能增大refresh及flush刷新间隔 遇到的问题及经验分享提升导入性能使用SSD盘时增大索引限制: indices.store.throttle.max_bytes_per_sec : 200mb 适当提高bulk队列: threadpool.bulk.queue_size : 1024 遇到的问题及经验分享集群异常恢复过慢关闭relocations size及磁盘使用率检查,重启完成后再打开增大每个节点同时允许恢复的分片数增大rebalance最小平衡阈值调整 Index、shard、primary平衡优先级增大

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档