- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多维度数据分析在集群监控中的应用
高能物理研究所
胡庆宝
2017.7.6
目录
背景需求
技术介绍
系统架构
数据处理
系统应用
背景需求
目前计算集群监控手段种类繁多、展示多样,但监控数据相对独立,监控工具往往只从各自层面显示监控信息。随着集群规模增长和集群服务多样化,亟需对集群各种监控数据进行整合,将多种监控数据关联,统一展现集群运行状态。
背景需求
Ganglia:CPU load/Memory usage/SWAP/Network/IO…
Nagios:AFS/CVMFS/Lustre/Gluster ssh/http …
Heplog:syslog accesslog servicelog
Self-plugin:collect-plugin + DB + dashboard
背景需求
静态属性
机器设备
集群服务
作业用户
Ganglia
性能负载
Nagios
服务状态
HEPLog
系统服务日志
Condor
Job运行信息
关联
对不同类型的监控数据进行解析,增加丰富的属性标签,在同一时间区间,通过对标签或其他约束条件的查询,实现监控数据的关联展现
技术介绍
属性数据库
节点属性库:实验组、服务器(AFS/Lustre/CONDOR…)、登录节点、计算节点等
服务属性库:kernel、sshd、afs…
作业属性:用户、实验组
技术介绍
LOGSTASH
强大的动态数据采集工具
java语言开发
支持断点续传
丰富的可扩展插件
强大的数据处理能力
可横向扩展
Beats
轻量级日志数据采集产品
Go语言开发
支持断点续传
支持过滤日志信息(FILEBEAT)
支持二次开发
灵活配置
技术介绍
influxdb
开源分布式时序、事件和指标数据库
支持多种统计函数
分布式水平伸缩扩展
吞吐量大
elasticsearch
基于Lucene的搜索服务器
支持REST web接口
水平分割/扩展存储数据
近实时搜索平台
技术介绍
Grafana
开源仪表盘工具,它可用于Graphite、InfluxDB、elasticsearch数据展示
kibana
Elastic stack 的展示组件
和elasticsearch具有更好的结合性
系统架构
数据处理
Ganglia监控数据
采用nc命令截取集群上传的udp数据包,解析拆分并上报metric信息。
采用Logstash的DISSECT处理模块,匹配metric字段
mutate
mutate
数据处理
Ganglia监控数据
基于节点的标签标定
curl -XPOST http://ip:9200/ganglia-2017-06-27/ganglia/_update_by_query?pretty -d {script:{inline:ctx._source.tags.add(params.tags),params:{tags:“tagvalue}},query:{bool:{must:[{term:{nodename.keyword:“nodevalue}}]}}}
mutate
mutate
数据处理
Nagios监控数据
采用filebeat提取nagios相关,拆分并上报metric信息。
数据处理
Nagios监控数据
数据处理
Nagios监控数据
基于服务的标签标定
curl -XPOST http://ip:9200/nagios-2017-06-27/nagios/_update_by_query?pretty -d {script:{inline:ctx._source.tags.add(params.tags),params:{tags:“tagvalue}},query:{bool:{must:[{term:{“service.keyword:“servicevalue}}]}}}
mutate
mutate
数据处理
syslog监控数据
采用filebeat过滤无效日志。
Logstash采用grok模块正则抽取相关字段数据。
数据处理
condorjob监控数据
采用解析脚本解析jobinfo,录入mysql展示(原有监控方式)。
Logstash采用jdbc-input模块同步jobmysql的数据信息,同时二次拆分jobinfo信息。
数据处理
condorjob监控数据
系统应用
日采集能力
系统应用
Grafana数据源配置
将多来源的数据索引放置到展示面板的数据源。
系统应用
Job分组统计
根据job的实验组属性,按用户查询作业分布情况。
系统应用
设备属性分组统计
根据Lustre服务器的实验组属性,查询服务器网络流量。
系统应用
分组作业分布和Lustre服务器流量关联
您可能关注的文档
最近下载
- 护理事业十五五发展规划(2026-2030).docx VIP
- 规范《GB1631-79-离子交换树脂分类、命名及型号》.pdf VIP
- smt转正工作总结报告.pptx
- Unit+1+Laugh+out+loud+Understanding+ideas+高中英语外研版(2019)选择性必修第一册.pptx VIP
- 《小交通量农村公路工程技术标准》(JTG 2111-2019).pdf VIP
- 物理竞赛全套课件.pdf
- 2025年临床中成药应用精选题库与解析.docx
- 人机交互设计 课件 第3章 交互设备.pptx
- 2025届高三数学高考二轮专题复习:立体几何解答题专练(含解析).docx VIP
- (初中信息技术学业水平考试知识点1.doc VIP
原创力文档


文档评论(0)