京东大规模监控系统实践
李旦
一、MDC系统简介
目
录 二、实践经验
三、优化方向
MDC系统简介
MDC简介
• MDC (Monitor Data Center ),是京东 自研
的企业级监控系统。负责对京东所有物理机 ,容
器进行监控 ,为用户提供精准 ,可靠 ,灵活的监
控告警服务。
背景
挑战
• 监控 目标集群规模大 ,监控粒度低 ,对单点性能
有较高要求。
• 监控 目标集群规模增长快 ,监控系统的设计需要
方便扩展 ,部署和维护。
• 物理机监控方面 ,业务环境比较复杂。
系统架构
1.目标发现
2.任务调度,管理
3.数据接口
1.封装Controller服务,对
下提供统一服务入口
2.提供简单的LB
数据采集,告警
采集Agent架构
任务分发 数据采集 实时告警 存储
数据采集
采集系统指标
物理机采集
• 通过SNMP协议采集物理机资源使用信息。
• 通过IPMI采集物理机硬件信息。
容器采集
• 通过cgroup追踪CPU、内存、网络、进程等使
用信息。
• 通过进入容器namespace执行命令 ,获取信息。
告警设置
• 应用可以通过用户组 ,告警组 ,资源组的绑定操
作 ,完成灵活 ,个性化的告警策略配置。
实践经验
高性能
• SNMP采集优化
pysnmp vs netsnmp (200个IP ,40个oid )
测试组 耗时(sec)
netsnmp(20线程) 30.935
netsnmp(50线程) 12.914
netsnmp(200线程) 4.044
pysnmp 11.043
• IPMI采集优化
改造ipmitool ,针对IPMI传感器信息采集较慢的
问题 ,加入缓存 ,保证获取数据时不会阻塞。
高性能
• 监控效率
高可用
配置存活检测计划任务,保证进程
进程 挂掉后能自动拉起。
服务前端增加LB,保证部分服务
服务 挂掉不会影响总体可用性。
增加Agent自监控,保持心跳,
业务 定时上报性能和故障信息,故障
原创力文档

文档评论(0)