ETL架构师常问问题.docVIP

下载本文档

2
0
约 13页
2017-09-04 发布于安徽
举报
版权申诉

ETL架构师常问问题.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Analysis 1. What is a logical data mapping and what does it mean to the ETL team? 什么是逻辑数据映射？它对ETL项目组的作用是什么？答：逻辑数据映射（Logical Data Map）用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档，通常以表格或Excel的格式保存如下的信息：目标表名：目标列名：目标表类型：注明是事实表、维度表或支架维度表。 SCD类型：对于维度表而言。源数据库名：源数据库的实例名，或者连接字符串。源表名：源列名：转换方法：需要对源数据做的操作，如Sum(amount)等。逻辑数据映射应该贯穿数据迁移项目的始终，在其中说明了数据迁移中的ETL策略。在进行物理数据映射前进行逻辑数据映射对ETL项目组是重要的，它起着元数据的作用。项目中最好选择能生成逻辑数据映射的数据迁移工具。答：在逻辑数据映射进行之前，需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段，一个是数据探索阶段（Data Discovery Phase），另一个是异常数据检测阶段。数据探索阶段包括以下内容： 1．收集所有的源系统的文档、数据字典等内容。 2．收集源系统的使用情况，如谁在用、每天多少人用、占多少存储空间等内容。 3．判断出数据的起始来源（System-of-Record）。 4．通过数据概况（Data Profiling）来对源系统的数据关系进行分析。数据探索阶段的主要目的是理解源系统的情况，为后续的数据建模和逻辑数据映射打下坚实的基础。 3. How is the system-of-record determined? 如何确定起始来源数据？答：这个问题的关键是理解什么是System-of-Record。System-of-Record和数据仓库领域内的其他很多概念一样，不同的人对它有不同的定义。在Kimball的体系中，System-of-Record是指最初产生数据的地方，即数据的起始来源。在较大的企业内，数据会被冗余的保存在不同的地方，在数据的迁移过程中，会出现修改、清洗等操作，导致与数据的起始来源产生不同。起始来源数据对数据仓库的建立有着非常重要的作用，尤其是对产生一致性维度来说。我们从起始来源数据的越下游开始建立数据仓库，我们遇到垃圾数据的风险就会越大。 Architecture 4. What are the four basic Data Flow steps of an ETL process? 在ETL过程中四个基本的过程分别是什么？答： Kimball数据仓库构建方法中，ETL的过程和传统的实现方法有一些不同，主要分为四个阶段，分别是抽取（extract）、清洗（clean）、一致性处理（comform）和交付（delivery），简称为ECCD。 1．抽取阶段的主要任务是：读取源系统的数据模型。连接并访问源系统的数据。变化数据捕获。抽取数据到数据准备区。 2．清洗阶段的主要任务是：清洗并增补列的属性。清洗并增补数据结构。清洗并增补数据规则。增补复杂的业务规则。建立元数据库描述数据质量。将清洗后的数据保存到数据准备区。 3．一致性处理阶段的主要任务是：一致性处理业务标签，即维度表中的描述属性。一致性处理业务度量及性能指标，通常是事实表中的事实。去除重复数据。国际化处理。将一致性处理后的数据保存到数据准备区。 4．交付阶段的主要任务是：加载星型的和经过雪花处理的维度表数据。产生日期维度。加载退化维度。加载子维度。加载1、2、3型的缓慢变化维度。处理迟到的维度和迟到的事实。加载多值维度。加载有复杂层级结构的维度。加载文本事实到维度表。处理事实表的代理键。加载三个基本类型的事实表数据。加载和更新聚集。将处理好的数据加载到数据仓库。从这个任务列表中可以看出，ETL的过程和数据仓库建模的过程结合的非常紧密。换句话说，ETL系统的设计应该和目标表的设计同时开始。通常来说，数据仓库架构师和ETL系统设计师是同一个人。 5. What are the permissible data structures for the data staging area? Briefly describe the pros and cons of each. 在数据准备区中允许使用的数据结构有哪些？各有什么优缺点？答： 1．固定格式的文本文件。（Flat File） Flat File指的是一种保存在系统上的一种文本文件格式，它以类似数据库的表的方式用行和列来保存数据。这种文件格式经常用来进行数据