阿里Kafka面试题及详细答案.docxVIP

阿里Kafka面试题及详细答案.docx

阿里Kafka面试题及详细答案

一、基础核心题（必问，考察基础掌握度）

1.请说说Kafka是什么，阿里场景中主要用它来做什么？

答：Kafka本质是一个分布式的流处理平台，底层是基于发布/订阅模式的消息队列，由LinkedIn开发后捐给Apache基金会，成为顶级开源项目，核心优势是高吞吐、低延迟、可持久化、可扩展，能稳定处理海量实时数据。

阿里场景中，它的核心用途有3个，都是落地性极强的：

1.日志收集：比如各个业务线（电商、支付、钉钉）的应用日志、访问日志，通过Filebeat等工具采集后，统一发送到Kafka，再同步到ELK栈进行分析、监控告警，替代传统的日志直连存储，避免日志峰值压垮分析系统；

2.实时数据同步：比如电商订单数据，从MySQL同步到ES（用于商品搜索）、Redis（用于缓存），中间用Kafka做缓冲，解耦上下游，避免同步失败导致的主库压力，同时支持数据回溯，万一同步出错可重新消费；

3.实时计算支撑：配合Flink、SparkStreaming做实时统计，比如双11的实时成交额、用户实时行为分析，Kafka作为数据源头，提供高吞吐的数据输入，保证实时计算的时效性（毫秒级延迟），这也是阿里大数据场景中最核心的用法之一。

2.Kafka的核心架构组件有哪些？各自的作用是什么？（阿里面试常追问组件交互流程）