大众点评运维架构全览和平台自动化演变-张冠宇.pptx

大众点评运维架构全览和平台自动化演变-张冠宇.pptx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大众点评运维架构全览和平台自动化演变张冠宇 大众点评&马哥教育分享大纲点评运维团队和职责说明点评运维体系架构点评运维系统介绍点评运维演变过程运维团队介绍分享大纲点评运维团队和职责说明点评运维体系架构点评运维系统介绍点评运维演变过程点评IDC整体结构用户静态资源访问智能DNSCDN加速动态资源访问硬件防火墙硬件防火墙测试&灾备硬件4层负载均衡硬件4层负载均衡生产软件7层负载均衡软件7层负载均衡服务器集群服务器集群服务器集群服务器集群服务器集群服务器集群(操作系统:Centos6.3) 光纤(操作系统:Centos6.3)B机房DatabaseDatabaseA机房B机房点评运维整体架构智能DNSCDN加速网络设备&防火墙 硬件负载均衡(4层)监控运维系统 软负载均衡(7层)业务WorkflowCentos 6系统开发语言java页面缓存页面缓存……页面缓存CatStatic&灾备Web……Web应用Button系统PuppetServiceService……Servicezabbix内网DNS网络CMDbDB分布式存储运维系统介绍全方位监控系统自动化平台系统配置类和管理系统记录和运营分析系统点评运维系统介绍自动化工作系统记录和运营分析系统全方位监控系统配置类和管理系统Cat(业务 应用) Zabbix (网络 系统) Logscan(日志扫描)Workflow(流程系统) GO平台系统 Button系统(代码上线系统)任务调度系统 Issue故障管理系统Dom运营质量平台运维安全平台雷达系统Puppet配置管理应用配置管理SLB配置管理 CMDB资产系统Cat业务监控业务层面监控Cat业务大盘应用报错大盘Cat显示应用完整调用运维系统介绍全方位监控系统自动化平台系统配置类和管理系统记录和运营分析系统Workflow流程系统自动化工具:Workflow 目标:将80%的常见操作流程化/自动化释放运维人力以便可以做更多高质量的工作将运维工作做成平台化,让业务研发团队自助Workflow流程系统自动扩容流程展示工作流订单展示高效操作工具: Go目标:命令行操作变成网页操作Workflow 不能覆盖的 20%操作实现所有运维操作的:可定制可追踪可重复Go平台系统 Go平台系统 Button上线系统 运维系统介绍全方位监控系统自动化平台系统配置类和管理系统记录和运营分析系统Puppet配置管理系统SLB配置管理汇总-工具平台化为什么要走工具&平台化?一开始,面对的问题很传统大量繁琐和重复的手工操作无法消灭的变更出错人员变动的培训门槛随时随地的应急-鸡飞狗跳解决方案也很自然:工具化/平台化 目的:形成规范、一致的操作用脚本/程序代替繁琐的人工执行所有操作可纪录操作发起人不再局限于运维工具化/平台化解决的问题是什么 效率那它带来的问题是什么?失 控工具开发管理的失控工具使用本身的失控工具所产生的结果失控点评运维经历过程业务支撑化规则标准化运维工具化平台产品化技术运营化运维系统介绍全方位监控系统自动化平台系统配置类和管理系统运营质量和故障分析系统介绍DOM运维与研发质量平台目标:建设一套可多方位和多层次描述线上运营质量的指标体系从海量的监控数据中实时的提取DOM运营质量平台DOM运营质量平台数据到位,让背锅嘎然而止记录和分析系统角色改变“运维”变为“运营”之后运维从辅助角色,变成主导角色从替补变为裁判从挨打变成打人工作内容的转变团队构成的转变做事方式的变化问题:运维不是什么?不是背锅侠不是救火侠不是忙成狗,还没业绩的路人总结:运维到底是干什么的?制定规则的裁判资源分配的决策者保证业务服务质量的主导者谢谢目前我们运维分为4个组,相信跟大部分公司一样,运维团队分为:应用运维、系统运维、运维开发和监控运维,当然还有DBA团队和安全团队,这里就不一一罗列了。整个运维团队全算上目前是不到40人规模。我们团队分工是这样的:应用运维:负责支持线上业务,各自会负责对应的业务线,主要职能是保证线上业务稳定性和同开发共同支撑对应业务,以及线上服务管理和持续优化。运维开发:帮助运维提升工作效率,开发方便快捷的工具,实现运维平台化自动化。系统运维:负责操作系统定制和优化,IDC管理和机器交付,以及跳板机和账号信息管理。监控运维:负责发现故障,并第一时间通知相关人员,及时处理简单故障和启动降级方案等。点评的运维基本都是非常高效的,我们最困难的时候应用运维只有6个人,抗了全公司几千台机器 几百个应用 十几条业务线的全部运维工作。这一点,得力于小伙伴们都比较给力,还有就是我们的运维工具相对完善。这一点我后面会着重介绍。我们先来看看点评的整体架构。先看一下点评的机房架构:点评目前是双机房结构,A机房主跑业务,B机房跑测试环境和大数据处理作业,有hadoop集群、日志备

文档评论(0)

喜宝 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档