- 6
- 0
- 约1.4千字
- 约 20页
- 2019-10-19 发布于湖北
- 举报
滴滴自动化运维实践
滴滴如何运维千级别规模机器
Agenda
v滴滴运维问题与挑战
v滴滴自动化运维思路
v滴滴自动化运维实践
• WorldTree(统一资源管理)
• 监控系统
• 自动故障处理
滴滴运维挑战
v 产品线多且同构, 运维工作如何复用?
• 出租车: api,mis, …
• 专车: api,mis, …
• …
v流量突增, 如何快速扩容?
• 初始化环境
• 监控采集/报警策略
• …
v业务频繁变更, 如何维护服务稳定?
• 代码 bug
• 故障定位
• …
运维思路
• 运维对象以服务节点为中心, 而不是具体机器
• 服务节点包含运维资源(机器,初始化策略,…)
• 资源变更自动化感知并应用到对应服务器
(Puppet, 监控采集 agent, 报警策略,…)
滴滴实践(Odin)
服务树(设计考虑)
v核心作用:
• 统一资源管理
• 逻辑空间隔离
v核心用户:
• 运维人员(精通命令,擅长文本操作)
v系统特点
• 读多写少(读取速度决定用户体验)
v常见设计
v数据库存储树形结构
v数据库存储 Tag, 动态构建树
WorldTree(设计)
v 目录结构即树
v 运维元素抽象为资源,文本存储
v 机器
v 初始化策略
v 监控采集策略
v …
v 资源变更版本记录
WorldTree(模板)
v 父节点包含资源模板
原创力文档

文档评论(0)