数据仓库建模面试题深度解析与实践.docxVIP

数据仓库建模面试题深度解析与实践.docx

本文档由用户AI专业辅助创建,并经网站质量审核通过
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第PAGE页共NUMPAGES页

数据仓库建模面试题深度解析与实践

一、选择题(每题2分,共10题)

题目:

1.在数据仓库建模中,星型模式的中心是?

A.事实表

B.维度表

C.关联表

D.聚集表

2.Snowflake模式相较于星型模式的主要优势是什么?

A.查询效率更高

B.数据冗余更低

C.维度粒度更细

D.维护成本更低

3.以下哪种指标不适合作为事实表的主键?

A.销售ID

B.库存数量

C.订单日期

D.产品类别

4.数据仓库中,缓慢变化维度(SCD)通常用于处理哪种情况?

A.高基数维度

B.维度属性频繁变更

C.低基数事实

D.时间序列数据

5.在ETL过程中,数据清洗的主要目的是什么?

A.提升数据传输速度

B.去除错误或缺失值

C.增加数据量级

D.优化存储结构

答案与解析:

1.A

-解析:星型模式的核心是事实表,存放可度量指标和维度键,而维度表围绕事实表展开。Snowflake模式是星型模式的延伸,将维度表进一步拆分。

2.B

-解析:Snowflake模式通过将维度表嵌套拆分,减少冗余但可能降低查询性能;星型模式结构扁平,查询效率更高。

3.B

-解析:事实表主键应为业务标识(如订单ID、销售ID),而库存数量是度量值,不属于业务键。

4.B

-解析:SCD用于记录维度属性的变化,如客户地址变更、产品分类调整等;高基数维度指属性值唯一度高(如客户ID),低基数事实指度量值稀疏。

5.B

-解析:数据清洗旨在处理不一致、缺失或异常数据,确保ETL输出的准确性;其他选项与清洗无关。

二、简答题(每题5分,共5题)

题目:

1.简述数据仓库与操作型数据库的主要区别。

2.解释维度角色在数据仓库建模中的作用。

3.描述数据立方体在OLAP中的概念及用途。

4.列举三种常见的SCD类型,并说明适用场景。

5.说明数据仓库中分区的作用及优势。

答案与解析:

1.数据仓库与操作型数据库的区别

-解析:

-目的:操作型数据库支持事务处理(增删改查),强调实时性;数据仓库面向分析,支持批量数据处理。

-结构:操作型数据库表结构复杂,数据冗余高;数据仓库采用星型/雪花模式,优化查询效率。

-粒度:操作型数据库记录原子级数据(如每条订单记录);数据仓库聚合数据(如按月汇总销售额)。

2.维度角色的作用

-解析:维度角色指同一维度表的不同字段承担不同分析视角(如客户可按地区或行业划分),增强灵活性。例如,产品维度中产品ID(业务键)和产品类别(角色)协同使用。

3.数据立方体概念及用途

-解析:数据立方体是OLAP的抽象结构,多维度(如时间、区域、品类)组合度量值,支持切片、切块、旋转等分析。用途:快速聚合数据,支持复杂商务分析(如跨区域销售额对比)。

4.SCD类型及场景

-类型:

-SCDv1:覆盖整个历史变更(适用于低频变更,如客户国籍)。

-SCDv2:拆分旧值和新值(适用于频繁变更,如产品价格调整)。

-SCDv3:新增有效日期字段(适用于需精确追踪时点状态,如会员等级)。

-场景:电商行业客户地址变更(SCDv1)、制造业产品规格更新(SCDv2)。

5.分区的作用及优势

-解析:

-作用:按业务逻辑(如时间、区域)拆分大表,提升查询性能和管理效率。

-优势:

-加速查询:仅扫描相关分区而非全表。

-简化维护:独立管理分区数据(备份、删除)。

-数据隔离:避免历史数据干扰实时分析。

三、设计题(每题15分,共2题)

题目:

1.背景:某电商平台需构建数据仓库支持以下分析:

-按用户地域、购买品类统计月度销售额。

-分析产品价格变动对销量的影响。

-跟踪促销活动对用户留存率的影响。

-要求:设计星型模式,包含至少3个维度表和1个事实表,并说明各表主键设计。

2.背景:某银行需分析客户资产分布,需求如下:

-客户维度需支持职业、年龄段、资产等级等多维度分析。

-交易事实表需记录每笔转账金额、时间、账户类型。

-要求:设计雪花模式,说明SCD类型选择及业务场景。

答案与解析:

1.电商平台星型模式设计

-事实表(Sales_Fact):

-主键:`Order_ID`(订单唯一标识)

-度量:`Sales_Amount`(销售额)、`Quantity`(销量)、`Discount_Rate`(折扣率)

-外键:关联维度表

-维度表:

-Customer_Dim(客户维度):

-主键:`Customer_ID`

-属性:`Region`(地域)、`Age_Group`(年龄段)

-Product_Dim(产品维度):

-主键:`Product_ID`

-属性:`Category`(品类

文档评论(0)

lili15005908240 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档