数仓面试题及详细答案.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数仓面试题及详细答案

一、基础概念类

1.什么是数据仓库?它和数据库的核心区别是什么?

答案:数据仓库(DataWarehouse,简称DW)是一个面向主题的、集成的、非易失的、随时间变化的数据集合,主要用于支持企业管理层的决策分析。

核心区别主要体现在4个方面:

①面向对象不同:数据库面向业务操作(OLTP,联机事务处理),比如电商的订单创建、支付等实时操作;数据仓库面向决策分析(OLAP,联机分析处理),比如分析季度销售趋势、用户消费偏好等。

②数据特性不同:数据库数据是实时的、动态的,会频繁增删改;数据仓库数据是历史的、静态的,以批量加载和查询为主,几乎不修改。

③数据粒度不同:数据库数据粒度细,比如一条具体的订单记录;数据仓库数据粒度粗,会按时间、地域等维度聚合,比如按天统计某地区的订单总量。

④设计理念不同:数据库按业务模块设计(如订单表、用户表、商品表),避免冗余;数据仓库按主题设计(如销售主题、用户主题),允许适度冗余以提升查询效率。

2.数据仓库的分层架构是什么?各层的作用是什么?

答案:主流的数仓分层为“ODS→DWD→DWS→ADS”四层架构,部分场景会增加DWT(明细汇总层),核心目的是“隔离原始数据、规范数据加工、提升复用性”,具体作用如下:

①ODS层(操作数据存储层):直接同步业务数据库的原始数据,结构和原始表基本一致,不做过多加工(仅做清洗,如去除脏数据、格式标准化)。作用是保留原始数据备份,避免直接操作业务库影响线上业务,同时为后续分层提供数据源。

②DWD层(数据明细层):对ODS层数据进行清洗、转换、整合,比如关联维度表、处理缺失值/异常值、拆分复合字段(如把地址字段拆分为省/市/区)。作用是生成结构化、标准化的明细数据,为上层汇总提供基础。

③DWS层(数据服务层):按主题对DWD层数据进行轻度汇总,比如按用户、商品、时间等维度聚合。作用是沉淀通用的汇总指标(如用户日活跃数、商品日销量),供多个ADS层需求复用,减少重复计算。

④ADS层(应用数据服务层):面向具体的业务需求,对DWS/DWD层数据进行最终加工,生成直接可用的指标或报表数据。作用是直接对接业务系统(如BI报表、决策系统),满足前端查询需求。

3.什么是数据集市?它和数据仓库的区别?

答案:数据集市(DataMart)是面向特定业务部门(如销售部、财务部)的小型数据集合,专注于该部门的决策分析需求,数据来源于数据仓库。

区别:①范围不同:数据仓库是企业级的,覆盖全公司所有业务主题;数据集市是部门级的,聚焦单一业务领域。②粒度不同:数据仓库粒度更细、数据更全面;数据集市粒度较粗,只保留部门所需的核心数据。③建设周期不同:数据仓库建设周期长(数月到数年),是“自上而下”的建设模式;数据集市建设周期短(数周),是“自下而上”的补充模式。

二、数仓建模类

1.什么是星型模型?什么是雪花模型?两者的优缺点及适用场景是什么?

答案:两者都是数仓建模的经典维度模型,核心区别在于维度表的层级结构。

①星型模型:以事实表为中心,所有维度表直接关联到事实表,维度表之间无关联,结构像“星星”。优点:结构简单、易于理解和维护;查询时关联表少,效率高;适合OLAP场景的快速汇总分析。缺点:维度表存在数据冗余(如地区维度表中同时存储省、市、区信息)。适用场景:业务逻辑简单、追求查询效率的场景,比如中小企业的数仓、快速迭代的业务需求。

②雪花模型:在星型模型基础上,维度表会进一步拆分出子维度表(比如地区维度拆分为国家表、省份表、城市表),维度表之间存在层级关联,结构像“雪花”。优点:数据冗余少,符合第三范式;维度表结构更灵活,便于维护维度属性的变更。缺点:查询时需要关联多个层级的维度表,关联复杂度高,查询效率较低;理解和维护成本高。适用场景:业务逻辑复杂、维度属性多变、对数据冗余敏感的场景,比如大型企业的复杂业务分析。

2.什么是事实表?什么是维度表?如何区分?

答案:事实表和维度表是维度建模的核心组成部分,核心区分在于“存储的是业务度量数据”还是“业务描述性数据”。

①事实表:存储业务过程中的度量数据(可量化、可统计的数值),比如订单金额、销量、点击量等。核心特征:包含业务主键(如订单ID、交易ID)、外键(关联维度表)、度量字段;数据量大,按时间递增;几乎不修改,只新增。常见类型:事务事实表(记录单次业务事件,如订单表)、周期快照事实表(按固定周期记录状态,如用户日活跃度表)、累积快照事实表(记录业务全生命周期状态,如订单从创建到完成的各节点时间表)。

②维度表:存储描述性信息,用于解释事实表中的度量数据,比如用户信息(姓名、性别、地区)、商品信息(名称、分类、价格)、时间信息(年、季、月、日)。核心特征

文档评论(0)

151****9429 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档