数据仓库ETL工具箱 Data Warehouse ETL Toolkit.pdf

数据仓库ETL工具箱 Data Warehouse ETL Toolkit.pdf

  1. 1、本文档共454页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
The Data Warehouse ETL Toolkit 目录 前言及致谢1 致谢1 作者简介2 1 介绍3 1.1 全书概览:两条并存的主线5 1.2 规划与设计主线6 1.3 数据流主线8 1.4 本书如何组织10 1.5 谁将阅读本书16 1.6 总结16 第一部分 需求、现状和架构18 2 一切围绕需求18 2.1 需求18 2.2 架构23 2.3 数据仓库的任务35 2.4 ETL 小组的任务40 3 ETL 数据结构41 3.1 是否集结数据41 3.2 设计集结区43 3.3 ETL 系统中的数据结构47 3.4 规划和设计标准59 3.5 总结62 第二部分 数据流64 4 抽取64 4.1 第1 部分:逻辑数据映射65 4.2 逻辑数据映射内部67 4.3 创建逻辑数据映射70 4.4 集成异构数据源80 4.5 第2 部分:从不同平台进行抽取的挑战82 4.6 主机数据源83 4.7 平面文件97 4.8 XML 数据源100 4.9 Web 日志数据源104 4.10 ERP 系统数据源108 4.11 第3 部分:抽取变化数据111 4.12 总结117 I 5 清洗和规范化118 5.1 定义数据质量120 5.2 假设120 5.3 第1 部分:设计目标122 5.4 第2 部份:清洗提交报告129 5.5 第3 部份:过滤器及其度量136 5.6 第4 部分:规范化报表154 5.7 小结165 6 提交维表167 6.1 维度的基础框架167 6.2 维度的粒度171 6.3 维度的基本加载计划171 6.4 扁平(Flat)维度和雪花(Snowflaked )维度 172 6.5 日期与时间维 174 6.6 大维度177 6.7 小维度 178 6.8 一个维表还是多个180 6.9 角色维度181 6.10 其他维度的子维杜182 6.11 退化维184 6.12 缓慢变化维185 6.13 类型1 缓慢变化维(覆盖)185 6.14 类型2 缓慢变化维(分区历史)187 6.15 第二种缓慢变化维的精确时间戳191 6.16 类型3 缓慢变化维(交替实体)193 6.17 混合缓慢变化维195 6.18 滞后到达的维度记录和更正劣质数据195 6.19 层次维和桥接表 197 6.20 不规则层次和桥接表200 6.21 技术关键点:生成层次桥接表202 6.22 采用维度中的位置属性展现文本事实207 6.23 小结209 7 提交事实表211 7.1 事实表基本结构211 7.2 确保参照完整性213 7.3 代理键管道215 7.4 基础粒度218 7.5 准备装载事实表225 7.6 无事实的事实表233 7.7 用类型2 历史数据补充类型1 事实表234 7.8 优化更正235 7.9 事实表中多个度量单位237 7.10 在多币种中收集收入239 7.11 迟到的事实240

文档评论(0)

xina171127 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档