- 1、本文档共179页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ETL相关-v1.2
数据库发展的几个阶段 企业信息化建设现状 分析人员的典型信息需求 现有数据库分析型应用存在的问题 数据仓库要解决的基本问题 数据仓库的定义 数据仓库的特点:面向主题 面向主题的数据组织 面向主题的数据组织的特点 面向主题数据组织的实现 数据仓库的特点:集成的 数据集成是仓库建设的大问题 数据的抽取、转化和加载 数据仓库的特点:相对稳定的 数据仓库的特点:相对稳定的 数据仓库的特点:时间特性 数据仓库的特点:时间特性 数据仓库的特点:时间特性 ETL数据抽取和转换加载 ETL定义 ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。 ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、DataStage、Repository Explorer等 主要概念: 代理键、缓慢维度变化、维度表,事实表 ETL架构师面试题(中文) /blog/user1/lastwood/archives/2007/1352.html 定义商业需求 客户的要求≠最终的需求 目标的定义 维度的定义 关键商业指标或者事实 数据归纳的周期要求 需求展示 需求向模型的转变 维度矩阵 维度的层次和分类 松散维度和紧密维度 技术的支持能力 度量值/指标 数据周期 数据质量 数据粒度的选择 数据的时间粒度 时间粒度也就是数据归纳和分析的时间周期 维度的纵向粒度 某一维度自身的细分 维度的横向粒度 某一对象的分析维度的多少 该维度对于分析是否有价值 ETL的常见问题 ETL中面临的问题 源系统的差异 操作平台的差异 历史数据缺乏 不同源系统关注层面的不同,导致数据质量问题 源系统的结构缓慢变化 数据的不一致 数据格式不统一 源系统数据定义的缓慢变化 数据的抽取、转换和加载 ETL的两个关键因素 数据抽取的复杂性通常来源于源系统的巨大差异 数据的装载受到数据抽取策略的影响,大量的数据刷新往往带来效率的不可接受,同时可能影响最终用户的使用 数据抽取的要点 数据源确认 抽取方法 抽取频率 时间窗口 工作顺序 异常处理 数据转换的基本任务 数据的选择 数据的分离/整合/合并 数据的转化 数据的汇总 单个字段的重新分配和简化 主键的重新构造 数据加载的几种方法 初始加载:对所有表的完全刷新 增量加载:直接增量插入、保留历史的增量加载 完全刷新:全表覆盖 数据质量中经常存在的问题 数据整合之后导致的数据逻辑冲突 数据字段类型不匹配 数据映射错误带来的数据质量问题 外键的溢出 ETL工具比较 DataStage IBM WebSphere DataStage(下面简称为DataStage)为整个 ETL 过程提供了一个图形化的开发环境,它是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集或数据仓库的集成工具。 IBM WebSphere DataStage 的开发环境是基于 C/S 模式的,通过 DataStage Client 连接到DataStage Server 上进行开发。这里有一点需要注意,DataStage Client 只能安装在 Windows 平台上面。而 DataStage Server 则支持多种平台,比如 Windows、Redhat Linux、AIX、HP-UNIX INFOMATIC Informatica PowerCenter 是Informatica公司开发的世界级的企业数据集成平台,也是业界领先的ETL工具。Informatica PowerCenter使用户能够方便地从异构的已有系统和数据源中抽取数据,用来建立、部署、管理企业的数据仓库,从而帮助企业做出快速、正确的决策。此产品为满足企业级要求而设计,可以提供企业部门的数据和电子商务数据源之间的集成,如XML,网站日志,关系型数据,主机和遗留系统等数据源。此平台性能可以满足企业分析最严格的要求。 Transformation简介 Transformation简介 ETL调度工具 SHELL 脚本调度 Automation 、CRTL-M(第三方) DS与PC都有自带的调度工具 数据仓库系统 数据仓库设计原则 数据仓库实施流程 数据仓库 架构 数据仓库设计步骤 数据仓库设计原则 数据仓库实施方法论 实施流程 数据仓库数据架构 ODS ODS与数据仓库 共同点:面向主题的和集成的,需要进行转换、加工处理 区别:主要体现数据的可变性和当前性上 数据仓库的设计步骤 基 本 思路 数据仓库的设计步骤数据驱动 ? 从现存数据库系统
文档评论(0)