- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ETL问题小结
ETL小结Requirement在数据仓库项目中,数据探索阶段的主要目的是什么?What are the primary goals of the data discovery phase of the data warehouse project?在逻辑数据映射进行之前,需要首先对所有的源系统进行分析。对源系统的分析通常包括两个阶段,一个是数据探索阶段(Data Discovery Phase),另一个是异常数据检测阶段。数据探索阶段包括以下内容:收集所有的源系统的文档、数据字典等内容。收集源系统的使用情况,如谁在用、每天多少人用、占多少存储空间等内容。判断出数据的起始来源(System-of-Record)。通过数据概况(Data Profiling)来对源系统的数据关系进行分析。数据探索阶段的主要目的是理解源系统的情况,为后续的数据建模和逻辑数据映射打下坚实的基础。如何确定起始来源数据?How is the system-of-record determined?这个问题的关键是理解什么是System-of-Record。System-of-Record和数据仓库领域内的其他很多概念一样,不同的人对它有不同的定义。在Kimball的体系中,System-of-Record是指最初产生数据的地方,即数据的起始来源。在较大的企业内,数据会被冗余的保存在不同的地方,在数据的迁移过程中,会出现修改、清洗等操作,导致与数据的起始来源产生不同。起始来源数据对数据仓库的建立有着非常重要的作用,尤其是对产生一致性维度来说。我们从起始来源数据的越下游开始建立数据仓库,我们遇到垃圾数据的风险就会越大。数据需求调研在调研过程中,要特别注意把握好关于数据的如下几方面需求:数据需求:需要哪些种类的数据?哪些种类的数据是基础的,具有原子性,哪些种类的数据可以通过其他数据计算出来?原子数据的覆盖面要广些,便于针对可变的需求进行扩展。分析维度需求:对每一种数据,需要从哪些角度去分析、展现?应用发散性思维考虑得尽可能多些;分析粒度需求:对每种数据的每一个分析维度,沿维的层次结构分析到何种级别、粒度?分析数据源:从何处获取数据?能获取怎样的数据?需求能否得到满足,还取决于数据源的状况。如下分析:(1)需要怎样的数据?这些数据的分析维度有哪些?沿各维的分析粒度如何?(2)各子公司的业务系统如何?数据如何存储(Excel?Access?MS SQL SERVER?Oracle?等等)?(3)如果用的是ERP系统,那么版本如何?已上了哪些模块或子系统?(4)所需数据能否从数据源获得?是否有可能从数据源的多处获得?更具体的,是从哪些表的哪些字段获得?是否需要作必要的转换?(5)抽取的数据能否满足维度分析的要求?如果不能满足,那么如何弥补?(6)抽取的数据能否达到所需要的分析粒度?如果不能满足,该如何弥补?(7)抽取数据的装载目标如何?为填充数据仓库事实表,还需要借助数据源中的哪些其他表的其他数据?Architecture在ETL过程中四个基本的过程分别是什么?What are the four basic Data Flow steps of an ETL process?:Kimball数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取(extract)、清洗(clean)、一致性处理(comform)和交付(delivery),简称为ECCD。抽取阶段的主要任务是:连接并访问源系统的数据。读取源系统的数据模型。变化数据捕获。抽取数据到数据准备区。清洗阶段的主要任务是:清洗并增补列的属性。清洗并增补数据结构。清洗并增补数据规则。增补复杂的业务规则。建立元数据库描述数据质量。将清洗后的数据保存到数据准备区。一致性处理阶段的主要任务是:一致性处理业务标签,即维度表中的描述属性。一致性处理业务度量及性能指标,通常是事实表中的事实。去除重复数据。国际化处理。将一致性处理后的数据保存到数据准备区。交付阶段的主要任务是:加载星型的和经过雪花处理的维度表数据。产生日期维度。加载退化维度。加载子维度。加载1、2、3型的缓慢变化维度。处理迟到的维度和迟到的事实。加载多值维度。加载有复杂层级结构的维度。加载文本事实到维度表。处理事实表的代理键。加载三个基本类型的事实表数据。加载和更新聚集。将处理好的数据加载到数据仓库。从这个任务列表中可以看出,ETL的过程和数据仓库建模的过程结合的非常紧密。换句话说,ETL系统的设计应该和目标表的设计同时开始。通常来说,数据仓库架构师和ETL系统设计师是同一个人。在数据准备区中允许使用的数据结构有哪些?各有什么优缺点?What are the permissible data structures for th
文档评论(0)