- 0
- 0
- 约7.14千字
- 约 17页
- 2026-04-11 发布于四川
- 举报
2026年人工智能运维监控基础考试题库及解析
1.单项选择题(每题2分,共20分)
1.1在Prometheus中,用于定义告警规则的YAML字段是
A.rule_files
B.alerting
C.groups
D.scrape_configs
答案:C
解析:groups字段下可定义多条告警规则,rule_files仅声明规则文件路径,alerting配置Alertmanager地址,scrape_configs用于抓取目标。
1.2某Kubernetes集群使用FluentBit收集容器日志,若需将日志同时输出到Kafka与Elasticsearch,应采用的机制是
A.启动两个DaemonSet分别写不同后端
B.在output段配置两个match标签
C.使用rewrite_tag_filter插件做分流
D.启用FluentBit的out_forward负载均衡
答案:B
解析:FluentBit支持在同一份配置里为同一输入定义多个output,只要match表达式匹配即可,无需额外组件。
1.3当训练作业使用Horovod框架时,以下哪项指标最能直接反映参数服务器瓶颈
A.GPU利用率
B.网络RRT
C.参数服务器CPU的all_reduce_queue长度
D.数据加载耗时
答案:C
解析:all_reduce_queue长度
原创力文档

文档评论(0)