面向分布式集群的GPU性能分析与建模方法:现状及展望.pdfVIP

  • 0
  • 0
  • 约7.44万字
  • 约 15页
  • 2026-02-03 发布于江西
  • 举报

面向分布式集群的GPU性能分析与建模方法:现状及展望.pdf

小型微型计算机系统2026年1月第1期

DOI:10.20009/j.cnki.21 ̄1106/TP.2025 ̄0278

JournalofChineseComputerSystemsVol.47No.12026

面向分布式集群的GPU性能分析与建模方法:现状及展望

1122

赵海燕ꎬ李志凯ꎬ钱诗友ꎬ曹健

1(上海理工大学光电信息与计算机工程学院ꎬ上海市现代光学系统重点实验室光学仪器与系统教育部工程研究中心ꎬ上海200093)

2(上海交通大学计算机学院ꎬ上海200240)

E ̄mail:1762238222@qq.com

摘要:随着人工智能与高性能计算的快速发展ꎬ模型复杂度和数据规模持续增长ꎬ使得单个GPU难以应对大规模计算任务.

因此ꎬ分布式GPU集群已成为现代深度学习与科学计算任务的重要基础设施.为了充分发挥此类系统的计算潜力ꎬ高效的性能

分析与建模方法在识别系统瓶颈、优化资源利用以及指导系统设计决策方面显得尤为关键.本文系统综述了分布式集群环境中

GPU性能分析与建模的前沿方法.首先深入剖析了当前主流GPU架构及其内部机制ꎬ解释其在并行计算任务中高效性的来

源.随后介绍了常用的性能指标与分析工具ꎬ为架构师与运维工程师根据具体应用需求选择合适的分析框架提供实践指导.文

章进一步探讨了包括瓶颈识别、故障归因及细粒度性能刻画在内的先进建模方法.最后ꎬ本文讨论了该领域仍存在的挑战ꎬ并展

望了未来构建更精准、可扩展且可解释的GPU性能分析方法的发展方向.

关键词:GPU性能分析方法ꎻ分布式集群ꎻ深度学习训练及推理ꎻ性能建模

中图分类号:TP18文献标识码:A文章编号:1000 ̄1220(2026)01 ̄0058 ̄15

GPUPerformanceCharacterizationinDistributedSystems:SurveyandResearchDirections

1122

ZHAOHaiyanꎬLIZhikaiꎬQIANShiyouꎬCAOJian

1(ShanghaiKeyLabofModernOpticalSystemꎬEngineeringResearchCenterofOpticalInstrumentandSystemꎬMinistryofEducationꎬUniversityof

ShanghaiforScienceandTechnologyꎬShanghai200093ꎬChina)

2(DepartmentofComputerScienceandEngineeringꎬShanghaiJiaoTongUniversityꎬShanghai200240ꎬChina)

Abstract:Therapidadvancementofartificialintelligenceandhigh ̄performancecomputinghasledtothecontinuousgrowthinmodel

complexityanddatascaleꎬmakingitincreasinglychallengingforasingleGPUtohandlelarge ̄scalecomputations.Asaresultꎬdistribu ̄

tedGPUclustershavebecomeafundamentalinfrastructureformoderndeeplearningandscientificcomputingworkloads.Tofullyex ̄

ploitthecomputationalpowerofsuchsystemsꎬeffectiveperformanceanalysisandmodelingtechniquesareessentialfori

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档