- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
气象高性能计算机故障监控系统设计与实现
气象高性能计算机故障监控系统设计与实现
摘 要: 气象高性能计算机在大幅提升气象部门数值预报能力的同时,给运维工作也带来了挑战。提出了一套轻量级,可拓展的高性能计算机故障监控系统设计方案,详细描述了系统的开发过程,以及开发过程中涉及问题的解决办法。系统部署后,宁波气象高性能计算机故障业务影响率从60%降低到10%以下。实践证明,该系统符合宁波气象的实际需求,也为高性能计算机故障监控系统的深入研究和开发提供了思路。
关键词: 高性能计算机; 气象; 故障监控; 监控系统
中图分类号:P409 文献标志码:A 文章编号:1006-8228(2017)08-90-04
Abstract: The meteorological HPC (high-performance computer) has greatly improved the numerical weather prediction (NWP) ability of meteorological department, and has also brought challenges to the operation and maintenance. In this paper, a lightweight and scalable design scheme of HPC fault monitoring system is proposed. The development process of the system and the solution to the problems involved in the development process are described in detail. After the deployment of the system, the business impact failure rate of Ningbo meteorological HPC has been decreased from 60% to below 10%. Practice has proved that the system conforms to the actual demand of Ningbo meteorological, and also provides a train of thought for the further research and development of HPC fault monitoring system.
Key words: HPC; meteorological; fault monitoring; monitoring system
0 引言
近年来,高性能计算机已经成为提升气象部门数值天气预报能力的关键因素[1-4]。气象高性能计算机运算任务密集,输入和输出数据量大,对时效性和稳定性要求很高[5],一旦发生故障,轻则对天气预报的制作产生影响,重则对防灾减灾和人民群众的生命财产安全产生威胁。各级气象部门在高性能计算机系统的建设、管理和监控上进行了大量的研究。宗翔等[6]对高性能计算机系统的架构和技术方法进行研究,设计了国家级气象高性能计算机管理与应用网络平台;吕爽等[7]对四川省气象局IBM Flex P460高性能计算机系统的架构和管理方法进行研究,为西南区域气象中心数值预报系统的运行和研发提供了理论支撑。通过对高性能计算机系统的架构和技术方法进行研究,提升系统的健壮性,有效避免设计缺陷导致的系统级故障,如果能开发一套高性能计算机监控系统,对各类运行级故障进行监控报警,会有很高的实用价值。针对这一问题,秦运龙等[8-9]使用shell语言,基于Routrek.granados模块进行操作指令传递,通过Web页面对所有高性能计算机系统及作业进行监控和管理,设计并实现了华中区域高性能计算机监控管理平台,一定程度上解决了气象高性能计算机系?y运行监控问题,但系统也存在一些问题,如监控平台以网页方式存在,不支持手机短信方式提醒,无法实现无人值守情况下的运行监控和实时报警需求。
宁波市气象局高性能计算机监控系统满足了高性能计算机运行级故障监控和报警需求,打通了运维工作最后一个环节,有效提高了运维人员的故障处理速度,提升了气象高性能计算机的业务可用性。
1 监控系统需求分析
宁波市气象局IBM Flex高性能计算机(图1)主要运行WRF中小尺度数值天气预报模式,是提升宁波气象部门综合预报能力和精细化“无缝隙”数值预报的重要工具和载体。该系统由56台计算节点、1台管理节点、1台数据处理节点、1台登陆节点、2台I/O节点组成,峰值运算速度为每秒29万
您可能关注的文档
最近下载
- 艾滋病防治知识讲座.pptx VIP
- T∕ZZB 2086-2021 塑料拖链标准规范.docx VIP
- 2025年文化教育职业技能考试-钢琴调律师考试近5年真题集锦(频考类试题)带答案.docx
- 高清版40篇短文搞定3500词.pdf VIP
- 分流职员申请表标准模板.docx VIP
- 人教版(2024年新教材)七年级上册英语Unit 2 We're Family 单元整体教学设计.docx VIP
- 急诊手术患者围术期肺保护管理策略专家共识解读PPT课件.pptx VIP
- 基于临床实践出血性疾病动态危急值专家共识2024版解读.pptx VIP
- 绘本《我家是动物园》.ppt VIP
- 广州数控GSK928TF 车床数控系统 使用手册 速印版2009-5-13.pdf
文档评论(0)