2025年AI系统资源监控(CPUGPU)实操试卷及答案.docxVIP

  • 0
  • 0
  • 约7.75千字
  • 约 10页
  • 2026-01-24 发布于重庆
  • 举报

2025年AI系统资源监控(CPUGPU)实操试卷及答案.docx

2025年AI系统资源监控(CPUGPU)实操试卷及答案

考试时间:______分钟总分:______分姓名:______

一、

请使用Linux命令行环境,监控一台运行AI任务的机器,持续观察1分钟。记录至少3个关键监控命令的输出片段(每个命令输出可简化,但需包含时间戳和关键数据列),并描述从这些输出中可以观察到哪些关于CPU使用情况的信息。

二、

假设你正在监控一个运行深度学习训练任务的GPU。使用`nvidia-smi`命令,请列出至少3条不同的命令行选项,用于获取GPU的实时状态信息。并简述你会如何利用这些选项的输出来判断该GPU是否存在显存不足的问题。

三、

根据以下模拟的`top`命令输出片段(仅包含部分关键列),分析当前系统CPU使用情况:

```

PIDUSERPRNIVIRTRESSHRS%CPU%MEMTIME+COMMAND

12345user120012.5G1.8G320KS68.012.13-01:23:45training_script.py

67890user200500M20M16KS5.00.10:00:10:05data_loader.py

11223system190400M50M40KS2.00.30:00:05:01background_task.sh

```

请指出当前系统中CPU使用率最高的进程是哪个,并简要说明判断依据。同时,你认为该进程的CPU使用是否存在异常?如果存在,请提出一种可能的原因。

四、

执行`nvidia-smi`命令后,你观察到某个GPU的“Utilization”显示为“0%”。请列举至少三种可能导致这种情况的实际情况,并简述你会如何进一步确认或排除这些情况。

五、

假设在运行一个AI推理任务时,系统监控显示CPU使用率持续接近100%,而GPU使用率却长期处于较低水平(例如低于10%)。请分析可能存在的原因。并提出至少两种不同的调整建议,以尝试优化系统资源利用率。

六、

请简述在使用`nvidia-smi`监控GPU显存使用时,如何区分“Used”和“Free”显存?如果发现“Used”显存持续增长,直至耗尽导致任务失败,请列出至少三种可能的原因,并说明你会优先排查哪一种。

七、

请描述一下,当你怀疑一个AI任务的性能瓶颈可能出现在磁盘I/O时,你会使用哪些工具或命令进行初步排查?并简要说明你会关注哪些方面的I/O指标。

八、

某AI任务在训练过程中频繁出现GPU温度过高(例如超过90°C)告警。请列举至少三种可能导致GPU过热的原因。并针对其中一种原因,提出相应的解决或缓解措施。

九、

结合CPU和GPU的监控数据,请简述如何判断一个AI系统是否处于性能瓶颈状态。并举例说明,当检测到瓶颈时,通常会优先考虑调整哪些系统参数或资源分配。

试卷答案

一、

监控命令输出片段示例(考生需自行记录真实或模拟输出):

1.`top-n1-c`

```

13:45:10up10days,5:10,10users,loadaverage:0.05,0.10,0.15

Tasks:196total,1running,195sleeping,0stopped,0zombie

%Cpu(s):5.0us,2.0sy,0.0ni,100.0id,0.0wa,0.0hi,0.0si,0.0st

...

PIDCOMMAND

12345training_script.py

67890data_loader.py

```

信息:可以看到整体CPU使用率较低(id=100.0),特定进程(如训练脚本)的CPU占用情况(通过`ps`命令补充查看)。`top`命令提供了系统整体和各进程的CPU使用率(%CPU),以及进程状态和命令名。

2.`vmstat13`

```

[05Jun202413:45:11]

procsusernicesystemidleiowaitirqsoftirqstealguestgUEST

1950.00.00.5100.00.00.00.0

文档评论(0)

1亿VIP精品文档

相关文档