实时分析在业务监控中的应用.pdf

实时分析在业务 监控中的应用 好雨系统架构师 祁世垚 个人简介 祁世垚 好雨联合创始人和系统架构师 前澳客网系统架构师 擅长自动化运维和docker 有丰富的系统运维经验和云计算经历 好雨云是做什么的 代码 • 基于docker 构建 • 公有云平台 • 私有化部署 业务 持续 监控 云计 交付 算 高效 快速 运维 伸缩 业务监控的目的 1. 系统中的各类服务是否真正在高效地运行 2. 何时该扩充资源,已有资源是否充分利用 为什么需要实时分析? 系统级监控的参考价值不够 l CPU利用率高 l 磁盘读写量大 l 网络流量大 有问题 没有问题 常规的统计分析方法 • 人工维护变化多、成本大 • 掩盖问题 后知后觉 • 谁导致的问题 • 毛刺是否会是隐患 如何解决 • 开发优化代码 • Dba优化数据库 • 优化其它后端服务 • 扩充资源 如何优化数据库等后端服务 后端服务使用情况黑盒 服务级别监控工具不够用 真的需要扩充资源? • 也许当前资源实际够用 • 隐藏的资源浪费 衔接运维和开发 运维需要了解 承接如此多的 请求是否必要 开发需要知道 使用服务的方 式有没有问题 影响性能的害虫除干净了吗? p平时访问量不多的慢URL p访问量不该如此大的URL p该缓存到cache 的数据库查询 p该分离到从库的sql p未命中的cache p未压缩的静态资源 实时分析能实现什么? 在故障时间点快速确认问题来源 发现不合理的请求 找出可能成为隐患的问题点 对接报警系统, 丰富监控项 列出时间占比最多的URL 判定因素 1. 响应速度快但访问数量很大 2. 访问量不大但响应速度慢 数据库sql 占比分析 案例 • Memcache只set 、只get 、无意义请求 • Ajax定时请求 • 请求时间逐渐变慢 • 机房流量暴涨 • 恶意抓取 • Ddos Memcache分析 我们是如何实现的? 复杂事件处理 CEP - Complex Event Processing 处理大量事件流挖掘复杂模式 开源实现 Esper 内存计算 100w/s 处理流程图 Web log Db-sniff Cache log Zmq

文档评论(0)

1亿VIP精品文档

相关文档