- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
百度Elasticsearch大数据分析实践大纲背景介绍典型应用场景遇到的问题及经验分享对ES的优化与改进后期计划ES是啥有谁在用面向搜索(for full text search)WikipediaGithubQuoraFacebook面向分析 (for analytics)Goldman Sachs UbntFoursquare (LBS)Linkedin NetflixES在百度的使用定位 — OLAP文本数据分析结构化数据分析ReportingMultidimensionalAnalysis Text AnalysisSQL DBPaloSearch DBElasticSearchES在百度现状2013年10月开始使用目前覆盖百度内部20多个业务线包括casio、云分析、网盟、预测、文库、直达号、钱包、风控等单集群每天导入30TB+数据,总共每天60TB+单集群最大100台机器,200个ES节点共使用近300台机器,启动500+ES节点典型应用场景一:云分析业务AppHiveApp···APIElasticsearchLogStashHDFSKafkaHadoop ClientRsyslogMysqlOSweb···典型应用场景一:云分析业务主要挑战大量文本数据的分词及建立索引数万用户,索引分片过多,元数据过大fielddata占用大量内存,容易OOM任意多维度关键词聚合查询秒级返回典型应用场景一:云分析业务解决方案根据索引大小分别设置分片数,充分利用type合并索引除分词字段外,其他字段全部存储为doc valuemaster node、data node、client node 分离部署保守设置fielddata内存占用软硬限,及其他内存占用限制设置fielddata有效期典型应用场景一:云分析业务典型应用场景二:casio业务典型应用场景二:casio业务主要挑战字段不确定数据量较大,每天30TB+数据,24小时不间断导入小时级任意维度聚合分析毫秒级返回,天级秒级返回集群规模较大(100台机器),机器较旧,宕机为常态典型应用场景二:casio业务解决方案使用动态mapping自动匹配未知字段数据分发到所有节点批量导入全部使用doc value存储,减少内存消耗使用模板,分天级、小时级自动创建索引SSD与SATA分组,冷数据定期自动迁移典型应用场景二:casio业务POST /casio-machinesall{ instance:1001, double_kvs:{cpu:35.6}, long_kvs:{mem:12}}典型应用场景三:网盟DMP业务业务简介把百度内部数据(用户特征、历史浏览以及搜索数据等)开放给广告主,让广告主更好的定义精准受众,协助广告主制定投放策略,提升营销效果。主要挑战用户标签千万级别,相当于每张表数千万字段每次请求涉及数千维度的组合过滤,数亿条数据的分组聚合高并发,QPS 100以上要求平均响应时间为秒级典型应用场景三:网盟DMP业务解决方案通过ES的嵌套文档类型,将用户标签属性由key转换为value qt :1001:{datefreq:1},1002:{datefreq:2} hct : 1002:{dateag:25} dmp : {qt:[{key:1001, datefreq:1},{key:1002, datefreq:2}],hct:[{key:1002,dateag:25}]}配置total_shards_per_node参数,最大化均衡分片分布查询请求负载均衡到集群所有节点遇到的问题及经验分享集群规划 遇到的问题及经验分享索引规划根据机器数,磁盘数,索引大小等设置分片数,单个分片最好不超过10GB配置total_shards_per_node参数,限制每个index每个节点最多分配多少个分片内存溢出尽量使用doc value存储保守配置内存限制参数查询时限制size、from参数 遇到的问题及经验分享提升导入性能增大refresh及flush刷新间隔 遇到的问题及经验分享提升导入性能使用SSD盘时增大索引限制: indices.store.throttle.max_bytes_per_sec : 200mb 适当提高bulk队列: threadpool.bulk.queue_size : 1024 遇到的问题及经验分享集群异常恢复过慢关闭relocations size及磁盘使用率检查,重启完成后再打开增大每个节点同时允许恢复的分片数增大rebalance最小平衡阈值调整 Index、shard、primary平衡优先级增大
您可能关注的文档
- 动物与环境 第6课小鸭子教学课件.pptx
- 活性污泥法的发展与新工艺教学课件.ppt
- 医院的环境管理演示文稿.pptx
- 九社区电子商务模式分析演示文稿.ppt
- 环境法学专题讲座.ppt
- 第一节 地球的宇宙环境.ppt
- 第六课 网络扫描-nmap与zmap.pptx
- Geo05-变质作用与变质岩.ppt
- 环境化工反渗透法 第10章 反渗透技术.ppt
- 环境心理学链接之城市意象和空间指认.ppt
- 广东省东莞市2024-2025学年八年级上学期生物期中试题(解析版).pdf
- 非遗剪纸文创产品开发经理岗位招聘考试试卷及答案.doc
- 广东省东莞市2024-2025学年高二上学期期末教学质量检查数学试题.pdf
- 体育安全理论课件图片素材.ppt
- 3.1 公民基本权利 课件-2025-2026学年道德与法治八年级下册 统编版 .pptx
- 广东省潮州市湘桥区城南实验中学等校2024-2025学年八年级上学期期中地理试题(解析版).pdf
- 大数据运维工程师岗位招聘考试试卷及答案.doc
- 广东省深圳市福田区八校2026届数学八年级第一学期期末教学质量检测模拟试题含解析.doc
- 广东省潮州市湘桥区城基初级中学2024-2025学年八年级上学期11月期中考试数学试题(解析版).pdf
- 广东省潮州市湘桥区城西中学2024-2025学年八年级上学期期中地理试题(解析版).pdf
最近下载
- 教育强国建设背景下研究型、应用型、技能型高校建设的责任与使命.docx VIP
- 泥浆护壁旋挖钻孔灌注桩施工技术交底.docx VIP
- T-CSUS《城镇排水管网运行和维护智能化技术标准》.pdf VIP
- 2024-2025学年上海市黄浦区五年级(上)语文期末试卷及答案.docx VIP
- 广东省东莞市八大民办学校联考2024-2025学年九年级上学期期末语文试题【含答案】.pdf
- 危重孕产妇和新生儿救治中心PPT.pptx VIP
- 2025年Z世代汽车消费趋势与购车决策分析报告.docx
- 异常工况处置能力培训试题.docx VIP
- 2025年湖南省书记员招聘笔试真题及答案.docx VIP
- _实验室pH计比对结果分析及测量不确定度评定.pdf VIP
原创力文档


文档评论(0)