ETL工程师面试题及参考答案.docxVIP

下载本文档

0
0
约6.69千字
约 5页
2025-11-14 发布于河北
举报
版权申诉

ETL工程师面试题及参考答案.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ETL工程师面试题及参考答案

一、基础理论与工具实操题（共8题）

题目：请简述ETL的核心流程，以及每个环节的核心目标是什么？

参考答案：ETL核心流程是抽取（Extract）、转换（Transform）、加载（Load）。抽取环节目标是从源系统（如数据库、日志文件、API）高效采集数据，需保证数据完整性（不丢、不重复）和时效性；转换环节是核心，目标是按业务规则清洗（去重、补缺失值、格式标准化）、整合（关联多源数据）、计算（衍生指标），让数据满足分析或存储要求；加载环节目标是将处理后的数据安全写入目标库（如数据仓库、数据湖），需考虑加载模式（全量/增量）、一致性和性能。

题目：常用的ETL工具（如DataStage、Talend、Kettle）中，你最熟悉哪款？请举例说明其核心组件的使用场景（至少2个组件）。

参考答案：以Kettle（PentahoDataIntegration）为例：①表输入组件：用于从关系型数据库（如MySQL、Oracle）抽取数据，可通过SQL语句筛选目标数据，支持参数化查询（如按日期分区抽取增量数据）；②合并行（笛卡尔积/内连接）组件：用于关联多源数据，比如将用户表和订单表按用户ID内连接，整合用户基本信息与消费记录；③过滤行组件：用于数据清洗，比如剔除订单金额为负数、创建时间为空的异常数据。

题目：什么是数据倾斜？在ETL处理大数据量时，如何识别和解决数据倾斜问题？

参考答案：数据倾斜是指数据在处理过程中（如转换、加载阶段），某部分任务节点承载的数据量远超其他节点，导致整体任务运行缓慢甚至超时。识别方式：①查看任务监控日志，关注各节点的处理数据量、运行时长差异（如某节点处理量是其他节点的10倍以上）；②分析数据分布，通过SQL查询（如groupby字段后看记录数分布）判断是否存在热点字段。解决方法：①拆分热点数据：将高频值单独处理，其余数据批量处理；②数据分片：按字段哈希或范围分区，将倾斜数据分散到多个节点；③调整SQL逻辑：避免大表全量关联，先过滤无效数据再关联；④增加资源配置：给倾斜节点临时扩容（如增加CPU、内存）。

题目：ETL过程中常见的数据质量问题有哪些？如何设计校验规则进行监控？

参考答案：常见数据质量问题：①完整性：缺失关键字段（如用户ID为空）、数据记录不完整（如订单缺少支付信息）；②准确性：数据值错误（如年龄为负数）、格式错误（如日期格式为“2024/13/01”）；③一致性：同一数据在多源系统中不一致（如用户姓名在CRM系统和订单系统不一致）；④唯一性：存在重复记录（如重复的订单号）。校验规则设计：①字段级校验：非空校验（关键字段notnull）、格式校验（日期正则表达式、手机号格式校验）、取值范围校验（年龄1-120岁）；②记录级校验：主键唯一性校验（如订单号无重复）、跨字段逻辑校验（如支付金额=商品金额+运费-优惠金额）；③总量级校验：源数据抽取量与目标加载量比对（误差率≤0.01%）、每日数据增量波动校验（如增量较前日±50%需告警）；④一致性校验：多源数据同步后，关键指标比对（如CRM系统用户数与数据仓库用户数差异≤1%）。

题目：全量加载和增量加载的区别是什么？分别适用于什么场景？

参考答案：区别核心在数据处理范围和效率：①全量加载：每次抽取源系统全部数据，覆盖目标库原有数据；优点是逻辑简单、数据一致性高，缺点是数据量大时耗时久、占用资源多；②增量加载：仅抽取源系统新增/变更的数据，追加或更新到目标库；优点是效率高、资源消耗少，缺点是逻辑复杂（需处理变更数据捕获）。适用场景：全量加载适用于①源数据量小（如配置表、字典表，数据量≤10万条）；②数据变更频率极低（如年度统计数据）；③目标库数据需完全同步源系统（如源系统无变更记录，无法实现增量）。增量加载适用于①源数据量大（如日均增量100万条以上的订单表）；②数据变更频繁（如用户行为日志、实时交易数据）；③要求ETL任务快速完成（如小时级、分钟级同步需求）。

题目：如何设计ETL增量抽取的方案？请举例说明（至少2种方案）。

参考答案：方案1：基于时间戳的增量抽取（最常用）。原理：源表新增“创建时间”“更新时间”字段，每次抽取时，记录上次抽取的最大时间戳，本次仅抽取时间戳大于该值的数据。示例：订单表有“update_time”字段，上次抽取最大时间戳为“2024-05-2023:59:59”，本次抽取SQL为“select*fromorderwhereupdate_time2024-05-2023:59:59