数据仓库工程师面试题及ETL开发含答案.docxVIP

  • 0
  • 0
  • 约2.88千字
  • 约 8页
  • 2026-02-14 发布于福建
  • 举报

数据仓库工程师面试题及ETL开发含答案.docx

第PAGE页共NUMPAGES页

2026年数据仓库工程师面试题及ETL开发含答案

一、选择题(共5题,每题2分)

题目:

1.在数据仓库设计中,星型模型和雪花模型的主要区别在于?

A.数据冗余程度

B.维度表的数量

C.层级结构复杂度

D.数据更新频率

2.以下哪种技术最适合用于处理大规模数据的ETL流程优化?

A.批处理

B.流处理

C.交互式查询

D.摩尔定律

3.在数据仓库中,FactTable通常存储哪种类型的数据?

A.维度信息

B.交易事实

C.用户定义字段

D.系统元数据

4.以下哪个工具通常用于数据质量监控?

A.Spark

B.Talend

C.GreatExpectations

D.Kafka

5.数据仓库中的SlowlyChangingDimension(SCD)主要用于解决什么问题?

A.数据冗余

B.维度数据变化

C.性能瓶颈

D.数据安全

二、简答题(共3题,每题5分)

题目:

1.简述数据仓库与关系型数据库的主要区别。

2.解释ETL流程中“数据清洗”的三个关键步骤。

3.描述数据仓库中“数据分区”的作用及其常见类型。

三、计算题(共2题,每题8分)

题目:

1.某电商平台每天产生10GB的交易数据,假设ETL处理窗口为8小时,系统可用率为95%。计算若每GB数据需处理时间10分钟,该系统每小时最多能处理多少GB数据?

2.在数据仓库中,某FactTable包含1000万行数据,每行数据有5个维度表关联。若使用星型模式,计算查询效率相比雪花模式提升多少?(假设雪花模式增加30%维度冗余)

四、设计题(共2题,每题15分)

题目:

1.设计一个电商数据仓库的星型模型,包含至少3个维度表和1个FactTable,并说明每个表的关键字段及作用。

2.某企业需要实现实时数据仓库,请设计ETL流程方案,包括数据源、处理工具、存储方式及优缺点分析。

五、编码题(共1题,20分)

题目:

使用Python编写一个ETL脚本,实现以下功能:

-从CSV文件读取销售数据(包含日期、产品ID、销售额),去除重复值。

-将清洗后的数据按日期分区写入HDFS,并统计每日总销售额。

(注:无需实际运行,只需提供代码逻辑及说明)

答案及解析

一、选择题答案

1.B

解析:星型模型将维度表扁平化,减少关联复杂度;雪花模型将维度表进一步规范化,但会增加表数量。

2.A

解析:批处理适合大规模数据批量处理,效率高;流处理适用于实时场景。

3.B

解析:FactTable存储业务事实数据,如交易金额、数量等。

4.C

解析:GreatExpectations是数据质量监控工具;Spark、Talend为ETL工具;Kafka为流处理工具。

5.B

解析:SCD用于处理维度数据变化,如客户地址变更。

二、简答题答案

1.数据仓库与关系型数据库的主要区别

-目的不同:关系型数据库面向事务处理(OLTP),数据仓库面向分析(OLAP)。

-数据结构不同:关系型数据库表结构固定,数据仓库采用星型/雪花模型,聚合数据。

-数据更新频率不同:关系型数据库实时更新,数据仓库定期更新(如每日)。

-数据冗余不同:关系型数据库低冗余,数据仓库允许冗余以优化查询效率。

2.ETL中数据清洗的三个关键步骤

-数据去重:去除重复记录,如重复的交易ID。

-数据格式化:统一数据类型,如将日期格式转换为YYYY-MM-DD。

-数据验证:检查数据完整性,如金额是否为正数、手机号是否合法。

3.数据分区的作用及类型

-作用:按时间、地区等维度划分数据,提高查询效率、简化备份恢复。

-类型:

-范围分区:按数值范围(如日期)。

-散列分区:按哈希值均匀分配。

-列表分区:按固定值(如地区)。

三、计算题答案

1.计算系统处理能力

-每小时可处理数据量=(8小时×60分钟/小时)×10分钟/GB×95%=456GB

解析:可用时间=8小时×0.95=7.6小时,每小时处理=7.6小时×60分钟/小时×10分钟/GB=456GB。

2.星型与雪花模式查询效率对比

-星型模式关联维度表次数:5次

-雪花模式关联维度表次数:5(主表)+3×5(子表)=20次

-效率提升:20-5=15倍

解析:雪花模式冗余维度表导致关联成本增加,星型模式简化查询。

四、设计题答案

1.电商数据仓库星型模型设计

-FactTable:`Sales_Fact`(`Order_ID`,`Date`,`Product_ID`,`Quantity`,`Revenue`)

-

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档