大数据张翼-携程大数据平台实践_大数据and人工智能专场.pptx

下载文档

2
0
约1.34万字
约 48页
2023-08-19 发布于北京
举报
版权申诉
保障服务

大数据张翼-携程大数据平台实践_大数据and人工智能专场.pptx

1、本文档共48页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

携程大数据平台实践Pus我介绍6龍 OPS/IT/CC张翼超过10年的互联网从业经验，超过7年的数据系统相关的经验浙江大学：本科研究生Ebay：软件开发工程师大众点评：资深软件开发工程师-〉技术经理携程：大数据平台技术总监提纲6龍 OPS/IT/CC、挑战和未来大数据平台现状Pus平台规模6龍 OPS/IT/CC主集群规模 180 -1100+台X6数据增量（每天）250T数据表数量正式表60000+调度任务数（每天）50000+运行实例120000+底层任务数（每天）310000+2017z\实时集群规模100+实时作业数 290+ Jstorm ~40+ Spark-streaming2015平台架构6龍 OPS/IT/CC开发平台Zeus查询平台ART机器学习算法平台调度主数据传输数据质量报表■/OLAP 命析即时查询基于Spark图形化AI平台实］吋数据平台GPU云平台分布式存储和计算框架实时框架______Spark.-St r earn i n gHiveSparkPrestoBBMHHermes (Kafka)Hadoop资源部鄙运雜监控自动运维系统大数据监控系统团队规模6龍 OPS/IT/CCREN SHAO SHI DUO而精干小底层数据架构：9 + 1开发和查询平台：6 + 1运维数据分析：4+1*日常维护支持.调研落成长的烦恼〃成长的烦恼有什么?6龍 OPS/IT/CC运维：?系统规模不断扩大-系统繁多，复杂性高开源系统-开源是把“双刃剑”?快速构建起相应的系统-随着系统规模的增大，开源系统的问题不断地暴露出来服务和支持-用户不断增长的“物质文化需求”与“短小精悍”团队之间的矛盾 ?临时的支持，问题排查工作变多运维-应对策略6龍 OPS/IT/CC总体策略：-“自动化”：节省运维成本，保证环境和配置一致?运维自动化?初始安装/变更-覆盖范围尽可能全（特别是客户端）?监控+失败的自动回复?确定的，风险不大的失败点（进程监控/Thrift Server的可用性监控）-多次自动回复失败需要升级?我们的惨痛教训：2015-09 Kerberos升级开源系统-应对策略6龍 OPS/IT/CC思想上做好长期斗争的准备“深挖洞（加深对现有系统的理解），“广积粮（基础知识/新系统调研）总体策略：-建立“代码级”维护能力-招聘时就要选择对技术有浓厚兴趣，能够沉的下心来的同学-在底层团队通过各种层次的分享建立学习，研究的氛围-代码学习小组?全员学习，模糊职位的边界-培养方向：一专多能?模糊开发和运维的边界实例：Hodoop调优6龍 OPS/IT/CCHadoop调优是一项长期工程从2016年 10月开始（CDH4.6 - CDH 5.7.1 升级完成,79个commits）我们几乎每1-2个月会遇至U1个影响集群的稳定性/效率的问题，而且每次问题的Root Cause往往并不相同实例一：RM调优在业务高峰的4点-10点，集群的使用率偏低通过YARN的主页面我们发现，集群的Used的Vcores只占Vcores Total的70%-80%通过一段时间的分析，我们发现瓶颈在YARN的Fair Scheduler的效率上/jira/browse/YARN-5188httDS/jira/browse/YARN-5188：/jira/browse/YARN-5188〃/jira/browse/YARN-5188issues.aD/iira/browse/YARN-5188DOOM』npasNodesNOW54 3DMin5430Avg54 3DMax543.CPUSNOW15BkMi n15BkAvg15BkMax15.F rocsNOW24kMi n1IkAvg116kMax20.实例：Hodoop调优6龍 OPS/IT/CC实例二：NN优化2017-01底到2017-02初，我们发现在早上6-10点, 集群的利用效率有多次较大的下跌我们分析发现，NN的RPC平均处理时间(RpcProcessingTimeAvgTime)较高解决方法：给NN减负，增效/jira/browse/HDFS-9198HDFS-9198/jira/browse/HDFS-7964 HDFS-7964/jira/browse/HADOOP-12483 HADOOP-12483主节点优化的总结1. 发现问题：关注集群总体的利用率；关注NN和RM的关键指标(RPC Process Time / Call Queue Length)和GC指标2. 分轿问题：分析NN和RM更加细致的指标(GC问题的话分析GCLog)；通过线索在去搜索相应的Jira,筛选Jira,通过Jira查看和分析相关的Code3. 在保证稳定性的前提下

您可能关注的文档

文档评论（0）

分享吧 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据张翼-携程大数据平台实践_大数据and人工智能专场.pptx