- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据仓库面试题及答案(实战版)
一、基础概念题(入门必问)
问题:请用通俗的语言解释数据仓库和数据库的核心区别,以及各自的应用场景?
答案:数据库是“业务库”,核心是支持日常业务操作(比如电商下单、银行转账),追求并发、实时性和数据一致性,数据是“动态的”(频繁增删改);数据仓库是“分析库”,核心是整合多个业务库的数据,做统计分析、决策支持(比如月度销售报表、用户行为分析),数据是“静态的”(主要是查询和加载,几乎不删改)。简单说:数据库管“当下做事”,数据仓库管“回头看总结”。
问题:什么是事实表和维度表?请举一个电商场景的例子说明。
答案:事实表是“存业务指标的表”,核心是可量化的数值(比如销售额、订单量)和关联维度的主键,数据量大、更新频繁;维度表是“存描述信息的表”,核心是对业务场景的分类描述(比如用户、商品、时间),数据量小、更新慢,用于过滤和分组。
例子:电商的“订单事实表”(含订单ID、用户ID、商品ID、下单时间ID、支付金额、购买数量),关联的维度表有“用户维度表”(用户ID、姓名、地区、注册时间)、“商品维度表”(商品ID、品类、价格、品牌)、“时间维度表”(时间ID、年、月、日、星期)。
问题:数据仓库的分层架构(ODS、DW、DM)分别是什么意思?为什么要分层?
答案:分层核心是“解耦、复用、易维护”,三层架构分工明确:
ODS层(操作数据存储层):直接同步业务库的原始数据,不做过多清洗,保留数据原貌(比如同步电商订单表的原始数据,包括删除标记、临时字段),相当于“数据中转站”;
DW层(数据仓库层):核心分层,对ODS数据做清洗(去重、补缺失值)、整合(关联多表)、转换(计算指标),按主题划分(比如用户主题、订单主题),是后续分析的“数据底座”;
DM层(数据集市层):面向具体业务场景的汇总数据(比如运营报表、大屏数据),是DW层数据的“子集”,直接给业务人员或应用使用,查询效率高。
分层原因:避免重复加工(比如多个报表共用DW层数据)、方便问题定位(比如数据错误可逐层排查)、支持灵活扩展(新增报表只需从DW层加工)。
二、建模相关题(核心考察点)
问题:星型模型和雪花模型的区别是什么?实际工作中更倾向用哪种?为什么?
答案:核心区别在维度表的关联方式:
星型模型:事实表在中心,所有维度表直接关联事实表,维度表不相互关联(维度表是“扁平化”的,比如商品维度表直接包含品牌、品类信息,不单独建品牌表);
雪花模型:维度表会进一步拆分(标准化),多个维度表之间可能存在关联(比如商品维度表关联品牌维度表、品类维度表,品牌和品类单独建表)。
实际工作中更倾向星型模型,原因:查询效率高(关联表少,避免多表嵌套查询)、维护简单(维度表扁平化,无需关注维度间的关联逻辑)、业务理解成本低(符合业务人员的认知习惯,比如查商品数据直接从商品表获取所有信息)。雪花模型虽节省存储(减少数据冗余),但查询复杂、性能差,仅在存储资源极度紧张或维度层级极多(比如地域维度:国家-省-市-区-街道,且各层级需单独维护)时少量使用。
问题:什么是缓慢变化维度(SCD)?常见的SCD处理方式有哪几种?分别适用什么场景?
答案:缓慢变化维度是指维度表中的数据不是频繁变化,而是“缓慢、不定期”变化的(比如用户的地址、商品的分类、员工的部门),核心是如何记录维度数据的历史变化,保证分析结果的准确性(比如要查“去年某用户下单时的地址”,就需要保留历史地址信息)。
常见处理方式及场景:
SCD1(覆盖更新):直接用新数据替换旧数据,不保留历史记录;适用场景:维度变化无需追溯(比如用户的昵称,即使改了,不需要知道之前的昵称);
SCD2(新增记录):不修改旧数据,新增一条包含新数据的记录,用字段标记生效时间(start_date)、失效时间(end_date)、是否当前有效(is_current);适用场景:需要完整追溯历史变化(比如用户的地址、商品的价格,要查不同时间点的状态),是实际工作中最常用的方式;
SCD3(增加新列):在原记录中增加新列存储新数据,保留最近一次的历史值(比如原列“address”存旧地址,新增“new_address”存新地址);适用场景:只需保留最近一次变化(比如员工的部门,只需知道“之前部门”和“当前部门”,不需要更早的历史),且变化次数少。
问题:数据建模时,如何选择粒度?粒度设计过粗或过细会有什么问题?
答案:粒度是指数据仓库中数据的“细化程度”(比如订单粒度是“每一笔订单”,还是“每天每个用户的订单汇总”),核心原则是“满足业务分析需求的最细粒度”。
粒度选择依据:业务需求(比如要分析“每笔订单的转
您可能关注的文档
- 教育管理学试卷及答案.docx
- 教育管理学试题及答案.docx
- 教育经济与管理专业研究生入学考试试题及参考答案.docx
- 教育综合知识考编模拟试题及答案.docx
- 教育综合知识模拟试题及答案.docx
- 教资考试面试高频题目及实用答案.docx
- 教资考试模拟题及参考答案.docx
- 教资考试模拟题及答案解析.docx
- 教资面试高频题及参考答案.docx
- 教资面试高频题目及参考答案.docx
- GB45673-2025危险化学品企业安全生产标准化通用规范 - 自测题.docx
- T /AJZCY 008—2025 以竹代塑 竹纤维粉膜袋.pdf
- T /CCTAS 274—2025 路用单组分聚氨酯胶粘剂.pdf
- GBT 33000-2025 大中型企业安全生产标准化管理体系要求 - 考试试卷及参考答案.docx
- GB 14778-2025 安全色光通用规则 练习题及参考答案.docx
- 《生产安全事故应急预案管理办法》练习题及参考答案.docx
- T /CCTAS 279—2025 民航电子客票销售系统功能要求.pdf
- 《生产安全事故应急预案管理办法》考试试卷及参考答案.docx
- GB 5083-2023 生产设备安全卫生设计总则 自测题及参考答案.docx
- GBT 33000-2025 大中型企业安全生产标准化管理体系要求 - 巩固测试题及参考答案.docx
原创力文档


文档评论(0)