- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 PAGE \* MERGEFORMAT 13 页 共 NUMPAGES \* MERGEFORMAT 13 页
DCOS监控模块
设计说明书初稿
邹能人
目 录 TOC \o 1-4 \u
DCOS监控系统 PAGEREF _Toc1980742048 1
系统架构设计说明书 PAGEREF _Toc1821962010 1
第一章 现状与需求分析 PAGEREF _Toc356064127 5
1.1. 业务现状 PAGEREF _Toc1520401167 5
1.1.1. 业务背景 PAGEREF _Toc1473890970 5
1.1.2. 主要建设目标与任务 PAGEREF _Toc1869419967 5
1.2. 需求分析 PAGEREF _Toc855346681 6
1.2.1. 监控需求 PAGEREF _Toc127700829 6
1.2.2. 需求综合分析 PAGEREF _Toc2025762803 8
第二章 总体设计 PAGEREF _Toc1358735788 9
2.1. 技术选型 PAGEREF _Toc482059779 9
2.1.1. Docker Stats PAGEREF _Toc698127264 9
2.1.2. Cadvisor PAGEREF _Toc242783932 10
2.1.3. Sensu PAGEREF _Toc2045089207 11
2.1.4. Scout PAGEREF _Toc1550712176 11
2.1.5. Sematext PAGEREF _Toc1223128305 11
2.1.6. Prometheus? PAGEREF _Toc1754034027 12
2.2. 监控模块架构设计 PAGEREF _Toc1634535213 13
2.2.1. 特性 PAGEREF _Toc1054456931 13
2.2.2. 组件 PAGEREF _Toc128263533 13
2.2.3. 架构 PAGEREF _Toc1943654118 13
第三章 监控模块功能与内容 PAGEREF _Toc599431185 15
3.1. 目前监控功能 PAGEREF _Toc1089809223 15
3.1.1. 集中监控管理 PAGEREF _Toc1772762581 15
3.1.2. 统一监控管理界面与告警功能 PAGEREF _Toc295297409 15
3.1.3. 自定义告警策略 PAGEREF _Toc1908323931 15
3.2. 接口设计 PAGEREF _Toc191900339 15
现状与需求分析
业务现状
业务背景
随着DCOS系统的逐渐成熟,DCOS系统平台上线业务逐渐增多,依靠过去人工巡检系统的方式发现系统故障、潜在风险及安全隐患的方式效率越来越低下且运维人员的工作强度及压力也在不断增加,为了提高发现系统故障的及时性、系统维护的专业性、规范化、科学性同时也能把运维人员从重复的工作中解放出来去做更多有意义的事情,因此我们亟需引入平台级的监控手段、工具来协助运维工程师解决当前的问题。
建设以应用监控为核心,集成集群监控、主机监控、弹性告警等功能的企业级监控系统,在DCOS系统中采用统一技术手段实现应用的智能运行管理。
主要建设目标与任务
为保证自有软件平台运行稳定性,对DCOS系统平台进行自动化监控,合理设置监控粒度及监控对象。尽可能的把潜在问题在萌芽状态解决及消除隐患,以此提高DCOS系统的安全性与稳定性。
监控模块的最终目标如下所示:
1.?及时发现潜在的问题化被动为主动维护;
2.?为平台性能优化提供直观参考依据;
3.?提高系统维护的专业性和规范性;
4.?提高用户体验,降低服务宕机时间。
需求分析
监控需求
平台监控告警
①、集群监控指标
集群内部组件的信息采集,下面只是事例,不局限于此:
haproxy,采集Haproxy基础状态信息,比如qcur、scur、rate等
nginx,采集nginx正常请求、异常请求、异常请求比例、请求平均响应时间、upstream请求次数、平均响应时间等
单台物理机的监控信息目前所需如下:
CPUuser 使用率、system使用率、空闲率、总量Mem总量、使用率Swap总量、使用率Disk总量、使用率、IO 读写的数、
原创力文档


文档评论(0)