京东大规模监控系统实践.pdf

京东大规模监控系统实践 李旦 一、MDC系统简介 目 录 二、实践经验 三、优化方向 MDC系统简介 MDC简介 • MDC (Monitor Data Center ),是京东 自研 的企业级监控系统。负责对京东所有物理机 ,容 器进行监控 ,为用户提供精准 ,可靠 ,灵活的监 控告警服务。 背景 挑战 • 监控 目标集群规模大 ,监控粒度低 ,对单点性能 有较高要求。 • 监控 目标集群规模增长快 ,监控系统的设计需要 方便扩展 ,部署和维护。 • 物理机监控方面 ,业务环境比较复杂。 系统架构 1.目标发现 2.任务调度,管理 3.数据接口 1.封装Controller服务,对 下提供统一服务入口 2.提供简单的LB 数据采集,告警 采集Agent架构 任务分发 数据采集 实时告警 存储 数据采集 采集系统指标 物理机采集 • 通过SNMP协议采集物理机资源使用信息。 • 通过IPMI采集物理机硬件信息。 容器采集 • 通过cgroup追踪CPU、内存、网络、进程等使 用信息。 • 通过进入容器namespace执行命令 ,获取信息。 告警设置 • 应用可以通过用户组 ,告警组 ,资源组的绑定操 作 ,完成灵活 ,个性化的告警策略配置。 实践经验 高性能 • SNMP采集优化 pysnmp vs netsnmp (200个IP ,40个oid ) 测试组 耗时(sec) netsnmp(20线程) 30.935 netsnmp(50线程) 12.914 netsnmp(200线程) 4.044 pysnmp 11.043 • IPMI采集优化 改造ipmitool ,针对IPMI传感器信息采集较慢的 问题 ,加入缓存 ,保证获取数据时不会阻塞。 高性能 • 监控效率 高可用 配置存活检测计划任务,保证进程 进程 挂掉后能自动拉起。 服务前端增加LB,保证部分服务 服务 挂掉不会影响总体可用性。 增加Agent自监控,保持心跳, 业务 定时上报性能和故障信息,故障

文档评论(0)

1亿VIP精品文档

相关文档