分布式计算站点统一部署和监控系统的研究与实现.pptxVIP

  • 3
  • 0
  • 约3.35千字
  • 约 20页
  • 2019-08-07 发布于广西
  • 举报

分布式计算站点统一部署和监控系统的研究与实现.pptx

分布式计算站点统一部署和监控系统的研究与实现 01 系统需求 1 目前,高能物理分布式计算实验合作广泛,高等院校和研究单位如中国科学技术大学、北京航空航天大学、成都文献情报中心等都建立了分布式计算物理集群。这些分布式站点大多由高校或研究单位的物理实验室承担,人员结构主要以物理研究人员为主,没有相应的计算机专业人员负责集群站点的管理和运维工作。所以这些站点经常因为出现一些小的系统问题,因没能够及时有效的解决而造成站点较长时间不可使用。 分布式计算对站点的可用性和可靠性要求较高。当前的各个分布式站点规模各异、IT基础设施复杂多样,对实现网络、计算、存储、数据库等资源的统一部署和运维提出了更高的要求。同时如果这些站点的计算环境不一致,导致同样的物理作业运行在不同的站点或者服务器上可能出现无法运行或者得到不同的结果。因此需要保持分布式计算站点部署统一和配置一致,进行集中监控和运维,从而对分布式计算环境提供更好的技术支撑,提高站点的可用性、可靠性,能够更好的支持BES、JUNO、LHHASO等物理实验。 02 技术介绍-监控 Nagios是一款免费的开源 IT 基础设施监控系统,其功能全面,应用灵活,一旦被监控对象状态出现异常,会第一时间发出颜色、声音、邮件或短信报警通知 ,在状态恢复后发送恢复正常的通知。 2 03 技术介绍-配置管理 Puppet puppet是一种Linux、Unix平台的集中配置管理系统,遵循GPL 协议(2.7.0),基于ruby 语言,C/S架构,默认情况下,能管理多达将40多种资源管理 资源管理 file(文件),user(用户),group(组),package(软件包),mount(挂载),schedule和cron(计划任务),service(服务),tidy(清理),yumrepo(yum仓库),sshkey(ssh认证)等常用资源 3 04 开源系统部署和监控的不足 作为开源系统,Nagios和Puppet能够很好的完成单个计算站点的有效运维。但是当遇到跨地域多站点时,它们的分布式处理能力有一定局限性,主要有以下不足。 1. 对异地网络环境要求较高,需要开通特定端口,许多主机要具有外部大地址。 2. 配置文件需要每个站点都保留一份,配置一个对象要登录主服务器和异地服务器同时修改,但是在后期运维中很难保持高度一致,不利于维护。 3. 配置文件的一致性检测,任务调度管理,数据采集等需要进一步开发优化。 4. 管理员要维护多个站点的多套系统,工作量大,维护效率不高。 鉴于以上原因,现有技术方案需要进行分布式架构的研究和设计,从而实现统一运维。统一运维主要包括分布式部署和分布式监控两个方面。 4 05 分布式系统架构设计 一级管理中心服务器 主要任务是管理所有需要统一配置的信息,并同步的git仓库中,供其他站点获取配置信息。通过Agent服务获取各个站点的监控信息,统一展示所有监控信息并发送报警通知等。 分布式二级管理服务器 分布式管理服务器上主要部署本地puppet master服务器和worker监控服务器。本地puppet master主要负责从Git上获取本站点的配置信息,并部署到本地主机上。worker主要用于对本站点内所有被监控设备进行数据采集,并把数据采集的结果通过发送给主监控进程。 被管理对象 主要是指分布式站点生产环境中的运行管理对象,这些对象主要分为主机和服务两大类。主机类主要有登陆节点、计算节点等。服务类可以是作业管理服务、存储服务、数据库服务等。主机需要安装Agent客户端代理程序,用于获取本机的配置信息,应用配置,并将本机的信息返回给二级服务器。 5 06 分布式部署研究 Git是一款免费、开源的分布式版本控制系统,用于敏捷高效地处理各种项目管理。基于Git分布式文件控制,进行实现Puppet的分布式部署功能。 Puppet根据不同站点和应用分组管理,在每一台二级管理服务器上安装git客户端。可以在中心服务器或二级管理服务器进行修改\增加\删除puppet配置文件,并将配置文件克隆到远程Git仓库。如果git有更新,分布式站点puppet服务器git自动更新puppet配置文件,各puppet客户端重新下载配置,重新更新软件部署。 6 07 分布式监控-技术架构 7 采用mod Gearman 数据传输中间件 由三部分组成: 一个NEB模块,它同监控核心程序 驻留在一起,将servicechecks,hostchecks和eventhandler加进Gearman

文档评论(0)

1亿VIP精品文档

相关文档