多维度数据分析在集群监控中应用.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多维度数据分析在集群 监控中的应用 高能物理研究所 胡庆宝 2017.7.6 目录 背景需求 技术介绍 系统架构 数据处理 系统应用 背景需求 目前计算集群监控手段种类繁多、展示多样,但监控数据相对独立,监控工具往往只从各自层面显示监控信息。随着集群规模增长和集群服务多样化,亟需对集群各种监控数据进行整合,将多种监控数据关联,统一展现集群运行状态。 背景需求 Ganglia:CPU load/Memory usage/SWAP/Network/IO… Nagios:AFS/CVMFS/Lustre/Gluster ssh/http … Heplog:syslog accesslog servicelog Self-plugin:collect-plugin + DB + dashboard 背景需求 静态属性 机器设备 集群服务 作业用户 Ganglia 性能负载 Nagios 服务状态 HEPLog 系统服务日志 Condor Job运行信息 关联 对不同类型的监控数据进行解析,增加丰富的属性标签,在同一时间区间,通过对标签或其他约束条件的查询,实现监控数据的关联展现 技术介绍 属性数据库 节点属性库:实验组、服务器(AFS/Lustre/CONDOR…)、登录节点、计算节点等 服务属性库:kernel、sshd、afs… 作业属性:用户、实验组 技术介绍 LOGSTASH 强大的动态数据采集工具 java语言开发 支持断点续传 丰富的可扩展插件 强大的数据处理能力 可横向扩展 Beats 轻量级日志数据采集产品 Go语言开发 支持断点续传 支持过滤日志信息(FILEBEAT) 支持二次开发 灵活配置 技术介绍 influxdb 开源分布式时序、事件和指标数据库 支持多种统计函数 分布式水平伸缩扩展 吞吐量大 elasticsearch 基于Lucene的搜索服务器 支持REST web接口 水平分割/扩展存储数据 近实时搜索平台 技术介绍 Grafana 开源仪表盘工具,它可用于Graphite、InfluxDB、elasticsearch数据展示 kibana Elastic stack 的展示组件 和elasticsearch具有更好的结合性 系统架构 数据处理 Ganglia监控数据 采用nc命令截取集群上传的udp数据包,解析拆分并上报metric信息。 采用Logstash的DISSECT处理模块,匹配metric字段 mutate mutate 数据处理 Ganglia监控数据 基于节点的标签标定 curl -XPOST http://ip:9200/ganglia-2017-06-27/ganglia/_update_by_query?pretty -d {script:{inline:ctx._source.tags.add(params.tags),params:{tags:“tagvalue}},query:{bool:{must:[{term:{nodename.keyword:“nodevalue}}]}}} mutate mutate 数据处理 Nagios监控数据 采用filebeat提取nagios相关,拆分并上报metric信息。 数据处理 Nagios监控数据 数据处理 Nagios监控数据 基于服务的标签标定 curl -XPOST http://ip:9200/nagios-2017-06-27/nagios/_update_by_query?pretty -d {script:{inline:ctx._source.tags.add(params.tags),params:{tags:“tagvalue}},query:{bool:{must:[{term:{“service.keyword:“servicevalue}}]}}} mutate mutate 数据处理 syslog监控数据 采用filebeat过滤无效日志。 Logstash采用grok模块正则抽取相关字段数据。 数据处理 condorjob监控数据 采用解析脚本解析jobinfo,录入mysql展示(原有监控方式)。 Logstash采用jdbc-input模块同步jobmysql的数据信息,同时二次拆分jobinfo信息。 数据处理 condorjob监控数据 系统应用 日采集能力 系统应用 Grafana数据源配置 将多来源的数据索引放置到展示面板的数据源。 系统应用 Job分组统计 根据job的实验组属性,按用户查询作业分布情况。 系统应用 设备属性分组统计 根据Lustre服务器的实验组属性,查询服务器网络流量。 系统应用 分组作业分布和Lustre服务器流量关联

文档评论(0)

aa15090828118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档