- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数仓面试题及详细答案
一、基础概念类
1.什么是数据仓库?它和数据库的核心区别是什么?
答案:数据仓库(DataWarehouse,简称DW)是一个面向主题的、集成的、非易失的、随时间变化的数据集合,主要用于支持企业管理层的决策分析。
核心区别主要体现在4个方面:
①面向对象不同:数据库面向业务操作(OLTP,联机事务处理),比如电商的订单创建、支付等实时操作;数据仓库面向决策分析(OLAP,联机分析处理),比如分析季度销售趋势、用户消费偏好等。
②数据特性不同:数据库数据是实时的、动态的,会频繁增删改;数据仓库数据是历史的、静态的,以批量加载和查询为主,几乎不修改。
③数据粒度不同:数据库数据粒度细,比如一条具体的订单记录;数据仓库数据粒度粗,会按时间、地域等维度聚合,比如按天统计某地区的订单总量。
④设计理念不同:数据库按业务模块设计(如订单表、用户表、商品表),避免冗余;数据仓库按主题设计(如销售主题、用户主题),允许适度冗余以提升查询效率。
2.数据仓库的分层架构是什么?各层的作用是什么?
答案:主流的数仓分层为“ODS→DWD→DWS→ADS”四层架构,部分场景会增加DWT(明细汇总层),核心目的是“隔离原始数据、规范数据加工、提升复用性”,具体作用如下:
①ODS层(操作数据存储层):直接同步业务数据库的原始数据,结构和原始表基本一致,不做过多加工(仅做清洗,如去除脏数据、格式标准化)。作用是保留原始数据备份,避免直接操作业务库影响线上业务,同时为后续分层提供数据源。
②DWD层(数据明细层):对ODS层数据进行清洗、转换、整合,比如关联维度表、处理缺失值/异常值、拆分复合字段(如把地址字段拆分为省/市/区)。作用是生成结构化、标准化的明细数据,为上层汇总提供基础。
③DWS层(数据服务层):按主题对DWD层数据进行轻度汇总,比如按用户、商品、时间等维度聚合。作用是沉淀通用的汇总指标(如用户日活跃数、商品日销量),供多个ADS层需求复用,减少重复计算。
④ADS层(应用数据服务层):面向具体的业务需求,对DWS/DWD层数据进行最终加工,生成直接可用的指标或报表数据。作用是直接对接业务系统(如BI报表、决策系统),满足前端查询需求。
3.什么是数据集市?它和数据仓库的区别?
答案:数据集市(DataMart)是面向特定业务部门(如销售部、财务部)的小型数据集合,专注于该部门的决策分析需求,数据来源于数据仓库。
区别:①范围不同:数据仓库是企业级的,覆盖全公司所有业务主题;数据集市是部门级的,聚焦单一业务领域。②粒度不同:数据仓库粒度更细、数据更全面;数据集市粒度较粗,只保留部门所需的核心数据。③建设周期不同:数据仓库建设周期长(数月到数年),是“自上而下”的建设模式;数据集市建设周期短(数周),是“自下而上”的补充模式。
二、数仓建模类
1.什么是星型模型?什么是雪花模型?两者的优缺点及适用场景是什么?
答案:两者都是数仓建模的经典维度模型,核心区别在于维度表的层级结构。
①星型模型:以事实表为中心,所有维度表直接关联到事实表,维度表之间无关联,结构像“星星”。优点:结构简单、易于理解和维护;查询时关联表少,效率高;适合OLAP场景的快速汇总分析。缺点:维度表存在数据冗余(如地区维度表中同时存储省、市、区信息)。适用场景:业务逻辑简单、追求查询效率的场景,比如中小企业的数仓、快速迭代的业务需求。
②雪花模型:在星型模型基础上,维度表会进一步拆分出子维度表(比如地区维度拆分为国家表、省份表、城市表),维度表之间存在层级关联,结构像“雪花”。优点:数据冗余少,符合第三范式;维度表结构更灵活,便于维护维度属性的变更。缺点:查询时需要关联多个层级的维度表,关联复杂度高,查询效率较低;理解和维护成本高。适用场景:业务逻辑复杂、维度属性多变、对数据冗余敏感的场景,比如大型企业的复杂业务分析。
2.什么是事实表?什么是维度表?如何区分?
答案:事实表和维度表是维度建模的核心组成部分,核心区分在于“存储的是业务度量数据”还是“业务描述性数据”。
①事实表:存储业务过程中的度量数据(可量化、可统计的数值),比如订单金额、销量、点击量等。核心特征:包含业务主键(如订单ID、交易ID)、外键(关联维度表)、度量字段;数据量大,按时间递增;几乎不修改,只新增。常见类型:事务事实表(记录单次业务事件,如订单表)、周期快照事实表(按固定周期记录状态,如用户日活跃度表)、累积快照事实表(记录业务全生命周期状态,如订单从创建到完成的各节点时间表)。
②维度表:存储描述性信息,用于解释事实表中的度量数据,比如用户信息(姓名、性别、地区)、商品信息(名称、分类、价格)、时间信息(年、季、月、日)。核心特征
您可能关注的文档
- 操作系统面试题及详细答案.docx
- 当兵心理测试题及详细答案.docx
- 导游证考试题库及详细答案.docx
- 导游资格考试题库全集及详细答案.docx
- 对联专项测试题及详细答案.docx
- 感情状态自测题及详细答案.docx
- 工程监理试题及详细答案.docx
- 工会法知识竞赛试题及详细答案.docx
- 护理学试题及详细答案.docx
- 护士考编模拟试题及详细答案.docx
- 山东名校考试联盟2025年12月高三年级阶段性检测语文试卷(含答案解析).pdf
- 山东名校考试联盟2025年12月高三年级阶段性检测数学试卷(含答案解析)原卷.pdf
- 山东名校考试联盟2025年12月高三年级阶段性检测物理试卷(含答案).docx
- 山东名校考试联盟2025年12月高三年级阶段性检测化学试卷(含答案).pdf
- 山东名校考试联盟2025年12月高三年级阶段性检测英语试卷(含答案).docx
- 山东名校考试联盟2025年12月高三年级阶段性检测英语试卷(含答案).pdf
- 山东名校考试联盟2025年12月高三年级阶段性检测思想政治试卷(含答案详解)原卷.pdf
- 山东名校考试联盟2025年12月高三年级阶段性检测生物试卷(含答案).pdf
- 知乐公司网站建设方案.doc
- 百团大战-区团购无底价-价格您来定店头活动执行方案.ppt
最近下载
- 湖南省长沙市2023-2024学年高二上学期1月期末考试物理试题(含答案).docx VIP
- 电子数据取证技术研究进展和趋势分析.docx VIP
- 粉笔980|25资料分析笔记(完整版).pdf VIP
- 2025年新人教版三年级上册道德与法治全册精编知识点梳理.pdf
- 2025广东揭阳市军人随军家属招聘17人备考题库及答案解析(夺冠).docx VIP
- 招标代理服务质量保证措施.docx VIP
- 检验学题库1(医学三基医技).pdf VIP
- 2025年社会福利院年终工作总结及2026年工作计划.docx
- 东芝VF-nC3C变频器 说明书.pdf
- 婴幼儿营养喂养评估服务指南(试行)(2024) 2.pptx VIP
原创力文档


文档评论(0)