ETL问题小结.docxVIP

下载本文档

5
0
约1.7万字
约 25页
2017-01-05 发布于湖北
举报
版权申诉

ETL问题小结.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ETL问题小结

ETL小结Requirement在数据仓库项目中，数据探索阶段的主要目的是什么？What are the primary goals of the data discovery phase of the data warehouse project?在逻辑数据映射进行之前，需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段，一个是数据探索阶段（Data Discovery Phase），另一个是异常数据检测阶段。数据探索阶段包括以下内容：收集所有的源系统的文档、数据字典等内容。收集源系统的使用情况，如谁在用、每天多少人用、占多少存储空间等内容。判断出数据的起始来源（System-of-Record）。通过数据概况（Data Profiling）来对源系统的数据关系进行分析。数据探索阶段的主要目的是理解源系统的情况，为后续的数据建模和逻辑数据映射打下坚实的基础。如何确定起始来源数据？How is the system-of-record determined?这个问题的关键是理解什么是System-of-Record。System-of-Record和数据仓库领域内的其他很多概念一样，不同的人对它有不同的定义。在Kimball的体系中，System-of-Record是指最初产生数据的地方，即数据的起始来源。在较大的企业内，数据会被冗余的保存在不同的地方，在数据的迁移过程中，会出现修改、清洗等操作，导致与数据的起始来源产生不同。起始来源数据对数据仓库的建立有着非常重要的作用，尤其是对产生一致性维度来说。我们从起始来源数据的越下游开始建立数据仓库，我们遇到垃圾数据的风险就会越大。数据需求调研在调研过程中，要特别注意把握好关于数据的如下几方面需求：数据需求：需要哪些种类的数据？哪些种类的数据是基础的，具有原子性，哪些种类的数据可以通过其他数据计算出来？原子数据的覆盖面要广些，便于针对可变的需求进行扩展。分析维度需求：对每一种数据，需要从哪些角度去分析、展现？应用发散性思维考虑得尽可能多些；分析粒度需求：对每种数据的每一个分析维度，沿维的层次结构分析到何种级别、粒度？分析数据源：从何处获取数据？能获取怎样的数据？需求能否得到满足，还取决于数据源的状况。如下分析：（1）需要怎样的数据？这些数据的分析维度有哪些？沿各维的分析粒度如何？（2）各子公司的业务系统如何？数据如何存储（Excel？Access？MS SQL SERVER？Oracle？等等）？（3）如果用的是ERP系统，那么版本如何？已上了哪些模块或子系统？（4）所需数据能否从数据源获得？是否有可能从数据源的多处获得？更具体的，是从哪些表的哪些字段获得？是否需要作必要的转换？（5）抽取的数据能否满足维度分析的要求？如果不能满足，那么如何弥补？（6）抽取的数据能否达到所需要的分析粒度？如果不能满足，该如何弥补？（7）抽取数据的装载目标如何？为填充数据仓库事实表，还需要借助数据源中的哪些其他表的其他数据？Architecture在ETL过程中四个基本的过程分别是什么？What are the four basic Data Flow steps of an ETL process?：Kimball数据仓库构建方法中，ETL的过程和传统的实现方法有一些不同，主要分为四个阶段，分别是抽取（extract）、清洗（clean）、一致性处理（comform）和交付（delivery），简称为ECCD。抽取阶段的主要任务是：连接并访问源系统的数据。读取源系统的数据模型。变化数据捕获。抽取数据到数据准备区。清洗阶段的主要任务是：清洗并增补列的属性。清洗并增补数据结构。清洗并增补数据规则。增补复杂的业务规则。建立元数据库描述数据质量。将清洗后的数据保存到数据准备区。一致性处理阶段的主要任务是：一致性处理业务标签，即维度表中的描述属性。一致性处理业务度量及性能指标，通常是事实表中的事实。去除重复数据。国际化处理。将一致性处理后的数据保存到数据准备区。交付阶段的主要任务是：加载星型的和经过雪花处理的维度表数据。产生日期维度。加载退化维度。加载子维度。加载1、2、3型的缓慢变化维度。处理迟到的维度和迟到的事实。加载多值维度。加载有复杂层级结构的维度。加载文本事实到维度表。处理事实表的代理键。加载三个基本类型的事实表数据。加载和更新聚集。将处理好的数据加载到数据仓库。从这个任务列表中可以看出，ETL的过程和数据仓库建模的过程结合的非常紧密。换句话说，ETL系统的设计应该和目标表的设计同时开始。通常来说，数据仓库架构师和ETL系统设计师是同一个人。在数据准备区中允许使用的数据结构有哪些？各有什么优缺点？What are the permissible data structures for th