- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 第三讲 数据抽取、转换和装载 * PPT课件 数据抽取、转换和装载 目标: 广泛了解ETL的功能 检查数据抽取功能(挑战、技术、评估和应用) 数据转换功能的任务和类型 理解数据整合和合并的意义 认识数据装载功能的重要性,了解将数据应用到数据仓库的主要方法 理解为何说ETL非常重要、耗时和艰巨的任务 * PPT课件 Contents ETL概览 数据抽取 数据转换 数据装载 ETL总结 * PPT课件 ETL概览 Contents 最重要和最具有挑战性 耗时而且费劲 ETL的需求和步骤 关键因素 * PPT课件 1.最重要和最具有挑战性 ETL功能具有挑战性,是因为源系统的性质 源系统彼此悬殊,种类多样,通常需要应付多个平台上的不同操作系统 很多源数据都是陈旧的应用系统采用的是过时的技术 旧系统中的数据质量各不相同,需要花很多时间进行处理 历史数据通常不会被保存在操作型系统中,但对于DW至关重要。 源系统之间普遍缺乏一致性。在不同的源系统中,相同的数据可能会用不同的形式来代表,且缺乏解决方法,导致不一致问题更加严重 源系统的结构随着时间会发生变化,因为新的商业条件不断出现。ETL功能也必须相应的调整 大多数源系统的数据格式和类型对用户没有实际的含义,而且很多展现方式模糊而晦涩的。 * PPT课件 2.耗时而且费劲 50%~70%的时间花费在ETL上 抽取: what? where? when? 转换:How?定义结构、缺失值补充、格式转换 装载:Long Time(测试) 抽取和应用变化着的数据有困难 * PPT课件 事实表的ETL 维度表的ETL 为所有的数据装载编写规程 组织数据缓存区域和检测工具 为聚集表制定计划 决定数据转换和清洗规则 建立全面的数据抽取规则 准备从源到目标数据元素的的数据映像关系 决定所有的数据源,包括内部和外部 决定数据仓库中需要的所有的目标数据 ETL处理过程的主要步骤 3.ETL的需求和步骤 * PPT课件 ETL过程涉及的各个方面 将几个数据源结构组合成数据仓库目标数据库中的行 将一个源数据结构分成若干个结构放入目标数据库中的若干行 从源系统数据字典和目录中读取数据 从多种文件结构中读取数据,包括平面文件、索引文件、旧系统数据库 装载大量原子事实表的细节 为大量聚集表或事实表做聚集 将数据从源系统平台上的一种格式转换成目标平台上的另一个格式 将晦涩的数值改变成对用户有意义的值 * PPT课件 4.关键因素 数据抽取、转换复杂性源于源系统巨大的差异性 硬件平台 OS DBMS Protocol 遗留的旧系统 与数据装载相关 最初装载和定期装载本身都需要大量时间(必须找和合适的时间) 增量转载中的特殊问题 如何捕获源系统的变化,且不影响源系统工作 不影响DW用户使用情况下装载 * PPT课件 Contents ETL概览 数据抽取 数据转换 数据装载 ETL总结 * PPT课件 二、数据抽取 两个因素增加了抽取工作的复杂度(相比操作型系统的ET) 1. 更多不同的系统中抽取 2. 增量装载 数据抽取的一些要点: 数据源确认:确认数据的源系统和结构 抽取方法:针对每个数据源,定义抽取过程是人工抽取还是基于工具的抽取(工具自己编写的还是购买的) 抽取频率:对于每个数据源,确定数据抽取的频率,每天、每星期、每季度等等 时间窗口:对于每个数据源,表示出抽取过程进行的时间窗口 工作顺序:决定抽取任务中某项工作是否必须等到前面工作成功完成,才能开始 异常处理:决定如何处理无法完成抽取的输入记录 * PPT课件 数据抽取:1.数据源确认 关键因素 :是否可以提供数据仓库需要的值? 大量的时间和复杂彻底的分析 例子:利用订单数据提供战略信息 订单:订单数量、折扣、佣金、希望运输时间、实际运输时间、不同处理阶段时间等 维度表:产品、订单部署、运输渠道、客户 * PPT课件 数据源确认过程 数据源 目标 订单处理 客户 产品 运输合同 出货跟踪 存货管理 产品数据 客户 运输渠道数据 部署数据 时间数据 订单量度 列出对事实表进行分析所需要的每一个数据项或事实 从所有维度中列出每一个维度属性 对于每个目标数据项,找出源系统和源数据项 如果一个数据元素有多个来源,选择最好的来源 确认一个目标字段的多个源字段,建立合并规则 确认多个目标字段的一个源字段,建立分离规则 确认默认值 检查缺失值的源数据 * PPT课件 数据抽取:2.数据抽取技术 源系统中的数据是依赖时间变化的 在数据仓库中不能忽略历史信息 如何从源系统中捕获历史数据?—— 数据如何存储在源系统中的。 源系统中的数据如何保存? 当前值 存储的值是代表当前属性的值,可能会改变,但何时改变则无法预知。为保存历史变化的DW在这类系统
原创力文档


文档评论(0)