大型高能物理计算集群资源管理方法评测.PDF

大型高能物理计算集群资源管理方法评测.PDF

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Vo 1. 44 No. 10 第 44 卷第10 期 计算机科学 2017 年 10 月 COMPUTER SCIENCE Oct.2017 大型高能物理计算集群资源管理方法的评测 孙震宇石京燕姜晓巍邹佳恒杜然 (中国科学院高能物理研究所 北京 100049) 摘 要 高能物理数据由物理事例组成,事例之间没有相关性。可以通过大量作业同时处理大量不同的数据文件,材、 而实现高能物理计算任务的并行化,因此高能物理计算是典型的高吞吐量计算场景。高能所计算集群使用开源的 TORQUE/Maui 进行资源管理及作业调度,并通过将集群资源划分成不同队列以及限制用户最大运行作业数来保证 公平性,然而这也导致了集群整体资源利用率非常低下。 SLURM 和 HTCondor 都是近年来流行的开源资源管理系 统,前者拥有丰富的作业调度策略,后者非常适合高吞吐量计算,二者都能够替代老1 日、缺乏维护的 TORQUE/Maui, 都是管理计算集群资源的可行方案。在 SLURM 和 HTCondor 测试集群上模拟大亚湾实验用户的作业提交行为,对 SLURM 和 HTCondor 的资源分配行为和效率进行了测试,并与相同作业在高能物理研究所 TORQUE/Maui 集群上 的实际调度结果进行了对比,分析了 SLURM及HTCondor 的优势和不足,探讨了使用 SLURM 或 HTCondor 管理高 能物理研究所计算集群的可行性。 关键词 资源管理系统,作业调度器,计算集群,高吞吐量计算,高能物理计算 中图法分类号 TP319 文献标识码 A 001 10. 11896/j. issn. 1002-1372豆 2017.010.016 Evaluation of Resource Management Methods for Large High Energy Physics Computer Cluster SUN Zhen-yu SHI Jing-yan JIANG Xiao-wei ZOU Jia-heng DU Ran (Institute of High Energy Physics ,Chinese Academy of Sciences ,Beijing 100049 ,China) Abstract High energy physics data consist of multiple events ,among which there is no relativity. A high energy phy sics computing mission is parallelized by running multiple jobs processing multiple different data files simultaneously. Therefore ,high energy physics computing is a typical high throughput computing scenario. The computer cluster run ning at the institute of high energy physics CIHEP) uses the open-source TORQUE/Maui for resource management and job scheduling. IHEP keeps a fair-use policy by dividing the computing resources of this

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档