- 3
- 0
- 约3.18万字
- 约 55页
- 2026-06-14 发布于广东
- 举报
大数据开发工程师面试题(某大型央企)题库详解
面试问答题(共25题)
第一题
请设计一个大数据平台的监控体系,特别是针对Spark/Flink实时计算任务的健康状况、资源使用率、端到端处理时长等方面的监控方案,并请说明你选择这些监控指标的原因,以及如何将这些指标与业务指标关联起来。
答案:
我们设计的目标是构建一套全面、实时、可视化的监控体系,覆盖实时计算任务从提交到结果的全过程。
??分三个阶段来详细说明监控方案:
任务健康状况监控
计算任务启动/完成率
任务失败次数、失败原因分类统计
任务运行时长分布
每个Stage/算子的执行状态
资源使用效率监控
CPU/内存/磁盘资源使用率
网络IO吞吐量
Yarn/Docker资源申请与分配情况
端到端处理时长监控
数据输入到输出的总处理时长
各环节处理时长分布
端到端SLA达成率
??二、关键监控指标及选择原因
任务健康指标
选择原因:保障计算任务的稳定性和业务系统的依赖性。监控任务状态异常(失败、长时间挂起)的阈值警报,并对失败原因进行归类统计。我们使用Prometheus+Grafana作为基础指标存储和可视化平台,配置动态扩容和NodeExporter覆盖所有组件监控。
资源使用指标
选择原因:及时发现资源瓶颈,指导资源分配,避免因资源不足导致的集群性能下降。具体监控节点CPU使用率、JVM内存使用、GC次数、堆外内存、磁
原创力文档

文档评论(0)