2021年面试ETL题总汇.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ETL面试题总汇 一、分析 1.什么是逻辑数据映射?它对ETL项目组作用是什么? What is a logical data mapping and what does it mean to the ETL team? 答: 逻辑数据映射(Logical Data Map)用来描述源系统数据定义、目的数据仓库模型以及将源系统数据转换到数据仓库中需要做操作和解决方式阐明文档,普通以表格或Excel格式保存如下信息: 目的表名: 目的列名: 目的表类型:注明是事实表、维度表或支架维度表。 SCD类型:对于维度表而言。三种SCD(Slowly Changing Dimension)技术 SCD1直接修改原维表信息,不保存任何维历史信息。 SCD2创立新记录而不删除或修改原有维信息。可通过为每条记录设定过期时间、生效时间两个字段来区别各历史记录和当前记录(历史记录过期时间均早于当前记录生效时间)。 SCD3在维表中定义历史信息字段,只保存有限历史信息(此技术很少应用) 源数据库名:源数据库实例名,或者连接字符串。 源表名: 源列名: 转换办法:需要对源数据做操作,如Sum(amount)等。 逻辑数据映射应当贯穿数据迁移项目始终,在其中阐明了数据迁移中ETL方略。在进行物理数据映射迈进行逻辑数据映射对ETL项目组是重要,它起着元数据作用。项目中最佳选取能生成逻辑数据映射数据迁移工具。 -----------------------------补充: 逻辑数据映射分为两种: 1:模型映射: 从源模型到DW目的模型之间映射类型有: 一对一:一种源模型数据实体只相应一种目的模型数据实体。如果源类型与目的类型一致,则直接映射。如果两者间类型不同样,则必要通过转换映射。 一对多:一种源模型数据实体只相应各种目的模型数据实体。在同一种数据存储空间,经常浮现会一种源实体拆分为各种目的实体状况下。在不同存储空间中,成果会相应到不同存储空间实体。 一对零:一种源模型数据实体没有与目的模型数据实体有相应,它不在咱们解决筹划范畴之内。 零对一:一种目的模型数据实体没有与任何一种源数据实体相应起来。例如只是依照设计考虑,时间维表等。 多对一:各种源模型数据实体只相应一种目的模型数据实体。 多对多:各种源模型数据实体相应各种目的模型数据实体。 2:属性映射 一对一:源实体一种数据属性列只相应目的实体一种数据属性列。如果源类型与目的类型一致,则直接映射。如果两者间类型不同样,则必要通过转换映射。 一对多:源实体一种数据属性列只相应目的实体各种数据属性列。在同一种实体中,经常浮现会一种源属性列拆分为目的各种属性列状况。在不同实体中,成果会相应到不同实体属列。 一对零:一种源实体数据属性列没有与目的实体数据属性列有相应,它不在咱们解决筹划范畴之内。 零对一:一种目的实体数据属性列没有与任何一种源数据属性列相应起来。例如只是依照设计考虑,维表和事实表中时间戳属性,代理健等。 多对一:源实体各种数据属性列只相应目的实体一种数据属性列。 多对多:源实体各种数据属性列相应目的实体各种数据属性列。 作用: 1 为开发者传送更为清晰数据流信息。映射关系涉及关于数据在存储到DW前所经历各种变化信息,对于开发过程中数据追踪审查过程非常重要。 2 把ETL过程信息归纳为元数据,将数据源构造,目的构造,数据转换规则,映射关系,数据上下文等元数据保存在存储知识库中,为元数据消费者提供较好参照信息,追踪数据来源与转换信息,有助于设计人员理解系统环境变化所导致影响; 开发设计者可以轻松回答如下问题: 1、这些数据从那里来? 2、这样成果通过什么样计算和转化得来? 3、这些数据是如何组织? 4、数据项之间有什么联系? 5、如果源发生变化,有那几种系统,目的受影响? 2.在数据仓库项目中,数据摸索阶段重要目是什么? What are the primary goals of the data discovery phase of the data warehouse project? 答: 在逻辑数据映射进行之前,需要一方面对所有源系统进行分析。对源系统分析普通涉及两个阶段,一种是数据摸索阶段(Data Discovery Phase),另一种是异常数据检测阶段。 数据摸索阶段涉及如下内容: A、收集所有源系统文档、数据字典等内容。 B、收集源系统使用状况,如谁在用、每天多少人用、占多少存储空间等内容。 C、判断出数据起始来源(System-of-Record)。 D、通过数据概况(Data Profiling)来对源系统数据关系进行分析。 数据摸索阶段重要目是理解源系统状况,为后续数据建模和逻辑数据映射打下坚实基本。 3.如何拟定起始来源数据? How is the system-

文档评论(0)

159****9606 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档