- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
人工智能AI机房运维工程师考试试卷及答案
一、单项选择题(每题2分,共30分)
1.以下哪项不属于AI机房服务器的核心组件?
A.GPU计算卡
B.高速内存颗粒
C.机械硬盘阵列
D.专用DPU芯片
答案:C(AI服务器优先使用NVMeSSD,机械硬盘因延迟高已逐步淘汰)
2.当GPU集群出现CUDA_ERROR_OUT_OF_MEMORY错误时,最可能的原因是?
A.主板BIOS版本过低
B.GPU显存分配超过可用容量
C.水冷系统水温异常
D.网络交换机端口速率不足
答案:B(显存溢出是CUDA程序常见错误类型)
3.液冷式AI机房中,以下哪种冷却液需定期更换?
A.矿物油
B.去离子水
C.氟化液
D.硅油
答案:B(去离子水会因杂质积累导致电导率升高,需定期更换)
4.用于监控GPU利用率的常用命令是?
A.top
B.nvidia-smi
C.vmstat
D.sar
答案:B(nvidia-smi是NVIDIA提供的GPU监控工具)
5.部署AI训练任务时,若发现网络延迟突然从1ms增至50ms,优先排查的设备是?
A.服务器电源模块
B.高速互连交换机(如InfiniBand)
C.空调制冷机组
D.存储阵列控制器
答案:B(AI训练依赖高速低延迟网络,互连设备故障最易引发延迟突增)
6.以下哪种RAID配置适合AI推理场景的日志存储?
A.RAID0
B.RAID1
C.RAID5
D.RAID10
答案:B(推理日志需要高可靠性,RAID1镜像模式适合小文件高频写入)
7.当AI服务器出现POST失败,蜂鸣器长响时,最可能的故障部件是?
A.内存
B.CPU
C.显卡
D.电源
答案:A(主板BIOS通常通过蜂鸣码区分故障,长响多为内存问题)
8.部署模型推理服务时,若发现QPS(每秒查询数)未达预期,优先检查的指标是?
A.硬盘读写速率
B.GPU计算利用率
C.空调回风温度
D.服务器BIOS版本
答案:B(推理性能直接受限于GPU计算能力)
9.以下哪项是AI机房PUE(电源使用效率)的合理范围?
A.1.0-1.2
B.1.2-1.5
C.1.5-1.8
D.1.8-2.0
答案:B(先进AI机房通过液冷等技术可将PUE控制在1.2-1.5)
10.配置GPU直通(GPUPassthrough)时,需在虚拟机管理程序中启用的关键功能是?
A.SR-IOV
B.vSwitch
C.TPM
D.KSM
答案:A(SR-IOV支持物理设备直接分配给虚拟机)
11.当AI训练任务出现梯度爆炸现象时,运维工程师应优先检查?
A.服务器供电稳定性
B.训练框架配置参数
C.网络丢包率
D.存储IOPS
答案:B(梯度爆炸属于模型训练问题,非运维硬件故障)
12.以下哪种监控指标最能反映AI集群的整体算力利用率?
A.平均CPU使用率
B.总GPU显存占用
C.集群总算力消耗/集群总理论算力
D.交换机端口带宽利用率
答案:C(总算力利用率是集群资源使用的核心指标)
13.部署边缘AI设备时,关键的环境防护措施是?
A.增加冗余电源
B.强化防尘设计
C.配置双路GPU
D.升级内存容量
答案:B(边缘环境粉尘较多,防尘是关键防护点)
14.当AI机房精密空调出现高压告警时,可能的原因是?
A.制冷剂不足
B.滤网堵塞
C.加湿器故障
D.温度设定过低
答案:B(滤网堵塞导致散热不良,引发高压告警)
15.对AI模型推理服务进行容量规划时,核心输入参数是?
A.服务器采购成本
B.模型精度要求
C.预期QPS和延迟要求
D.机房可用空间
答案:C(容量规划需基于业务负载需求)
二、填空题(每空2分,共20分)
1.AI服务器常用的高速互连协议有________和________(任写两种)。
答案:InfiniBand、PCIe5.0、100GEthernet(任选两种)
2.GPU计算卡的主要散热方式包括________和________。
答案:风冷、液冷(或冷板液冷、浸没式液冷)
3.监控AI集群时,需重点关注的三维度指标是________、________、________。
答案:计算资源(GPU/CPU)、存储资源(IOPS/带宽)、网络资源(延迟/带宽)
4.部署容器化AI服务时,常用的编排工具是________。
答案:Kubernetes(K8s)
5.为防止AI训练数据丢失,存储系统应至少采用________冗余策略。
答案:RAID6(或双副本、三副本)
6.液冷系统的关键参数包括________和________
您可能关注的文档
- 七类职业性适应测试题及答案.docx
- 期中学业质量检测九年级物理试题及答案.docx
- 企业保密员保密设备应用与维护试题及答案.docx
- 企业常用的经典人才测评试题及答案.docx
- 企业服务器维护知识题库及答案.docx
- 企业团队精神测试题及答案.docx
- 企业网络安全管理体系建设与维护试题及答案.docx
- 企业夏季防汛安全知识培训预案试题及答案.docx
- 企业信息化建设与维护模拟试题及答案.docx
- 企业员工职业素养与团队协作能力测评试卷及答案.docx
- 2025年建筑施工安全生产知识竞赛题库及参考答案.docx
- 2026-2031中国金属波纹管市场分析预测及战略咨询报告.docx
- 2025年混凝土工安全考试题库及答案.docx
- 2025至2030中国玫瑰面膜行业调研及市场前景预测评估报告.docx
- 湖南省长沙市明德中学2025-2026学年高二上学期11月期中考试数学试卷(含答案).pdf
- 2025年免疫规划培训试题(含答案).docx
- 急救箱必备蛇毒血清说明.pptx
- 2025年机器人视觉伺服控制考题(含答案与解析).docx
- 医疗器械设备销售服务协议.doc
- 2026-2030中国磷石膏行业市场发展现状及竞争策略与投资前景研究报告.docx
原创力文档


文档评论(0)