- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库ETL
数据抽取、转换、加载ETL 2010.10.9 目 录 ETL建模 ETL增量机制 ETL数据质量控制机制 ETL并行技术 ETL工作流模型 ETL概念模型 例子 ETL逻辑模型 数据转换 ETL增量抽取机制 触发器方式 时间戳方式 全表删除插入方式 全表比对方式 日志表方式 系统日志分析方式 ETL数据质量控制机制 数据质量问题分类 ETL并行控制技术 确定ETL工作流活动优先级 并行执行ETL工作流中的活动 * * 在ETL流程设计中,首先应该根据业务需求和相关数据源的结构建立概念模型,确定源数据库与目标数据库之间的映射关系,然后根据概念模型建立逻辑模型。 概念建模是整个ETL流程设计的最初阶段,在这个阶段, ETL流程设计者的主要任务是搜集用户的需求,然后分析相关数据源的结构及其内容,确定抽取操作所使用的数据源。ETL概念模型主要是建立数据源与数据仓库的模式或者属性之间的映射关系,以及在映射过程所需要的转换和清洗操作。 下面给出在本文中使用的几个ETL概念模型基本元素的定义: 转换(transform) 是从数据源到目标数据仓库属性映射过程中对数据进行必要的转换、清洗操作。它包括了数据清 洗/过滤操作与模式转换操作。 约束(ETL constrain) 对数据集合中的数据必须满足的某些条件进行建模的结果。 数据供应关系(provider relationship) 定义从数据源到目标数据仓库的属性之间的映射关系,以及中间可选的相关转换。 下面以一个例子来说明ETL流程的概念建模。一家电子商务跨国企业,需要从中国和美国两个分公司的数据库抽取注册用户的信息到集中的数据仓库中进行分析,假设数据源和数据仓库中的模式如下: S1.customer(customerlD,name,citylD,cmail,date) S1.city(cityID。cityName.countryName) S2.customer(name,countryName,cilyName,email,date) DW.customer(customerlD.name,countryName,cityName,email,date) 对于这个ETL场景,可以建立如图1所示的概念模型。其中:Sl和s2表示数据源中的表,DSA表示中间数据库,DW表示目标数据仓库。 在上面这个例子中,为了保证目标数据仓库中数据的完整性,需要从Sl和s2两个数据源抽取数据,对它们执行并(union)操作。为了与数据仓库中事实表的模式一致,必须对S1中的customer表和city表执行外连接,而且还要将S2中 date属性的数据类型为日期格式(mm/dd/yyyy)转换成中国的日期格式(yy/mm/dd),还需要根据s2的其他属性组合(name、email)为S2表计算生成一个主键。其中,并运算、外连接运算以及日期转换属于概念模型中的转换transform),其他的操作如PK、SK则属于约束(ETL constrain)。 ETL概念模型并不是一个完整的工作流模型,它定义了数据源与目标数据仓库属性之间的映射关系以及中间必要的转换,但并不关注转换的语义以及执行顺序。 ETL流程的逻辑模型是一个以数据为中心的工作流模型,在逻辑建模阶段,ETL流程的设计者需要明确定义数据流所经过的各个活动的操作语义,并确定整个流程中各个活动的执行顺序。 活动(activity)是ETL工作流的基本执行单元,是ETL逻辑模型中一个重要元素。它定义了输入数据模式、输出数据模式、活动的操作语义以及活动的执行优先级。活动的操作语义定义了活动对输入数据所执行的操作,以及输入数据模式到输出数据模式之间的映射关系,可以使用SOL语言或者其他的形式化语言对语义进行描述,也可以使用ETL工具箱中的操作组件和相应的运行时参数进行表示。在一个ETL流程中,必须明确规定每一个活动的执行优先级,ETL流程中的任意两个活动,如果存在依赖关系,即一个活动的输入模式依赖于另一个活动的输出模式(不一定是相邻活动),那么,这两个活动构成严格偏序关系,可以确定其执行的先后顺序。一般情况下,在一个ETL流程中,抽取操作(extract)总是最先执行,加载操作(load)最后执行。 在设计数据转换时,由于数据源之间往往存在着不一致的问题,因此数据转换必须做到数据名称及格式的统一,同时对于源数据库中可能不存在的数据需要创建新的数据逻辑视图并进行相应的转换。概括起来需要如下的处理: ①直接映射:数据源字段和目标字段长度或精度相同,则无需做任何处理。 ②字符串处理:从数据源的字符串字段中获取特定信息作为目标数据库的某个字段,则对字符串的操作有类型转换、字符串截取等。由于字符类型字段的随意性也可能造成脏数据的出现,所以在处理这种规则的时候,需要异常
您可能关注的文档
- 感受自然实践活动简讯.doc
- 感恩词和孔老夫子相.ppt
- 感悟人际关系学.doc
- 感谢信 段誉.doc
- 愿做深山沟的老黄牛.doc
- 感谢上苍 感恩父母.doc
- 慈溪万育书院八年级下册一元二次方程中考题精选.doc
- 慈悲是用勇气面对全部的痛苦.doc
- 戏说-2 (NXPowerLite).ppt
- 戏说-1 (NXPowerLite).ppt
- 2026及未来5年中国风扇式燃气暖风机市场数据分析及竞争策略研究报告.docx
- 2026及未来5年中国带灯电话万历市场数据分析及竞争策略研究报告.docx
- 2026及未来5年中国牛二层反毛(绒)皮市场数据分析及竞争策略研究报告.docx
- 2026及未来5年中国珠宝抛光刷市场数据分析及竞争策略研究报告.docx
- 2026及未来5年中国美容修甲套市场数据分析及竞争策略研究报告.docx
- 2026及未来5年中国丝印彩带市场数据分析及竞争策略研究报告.docx
- 2026及未来5年中国双面绒布市场数据分析及竞争策略研究报告.docx
- 2026及未来5年中国佛球市场数据分析及竞争策略研究报告.docx
- 2026及未来5年中国交直流点焊机市场数据分析及竞争策略研究报告.docx
- 2026及未来5年中国导杆式柴油打桩机市场数据分析及竞争策略研究报告.docx
最近下载
- 股市主力操盘盘 口摩斯密码(原创内容,侵权必究).pptx
- 人教部编版小学四年级语文上册期末复习计划及全册单元复习课教案.docx VIP
- 幼儿园教师业务水平知识考试题(附答案).docx VIP
- 西北师范大学2022-2023学年第1学期《宏观经济学》期末考试试卷(A卷)附标准答案.docx
- 高三一轮复习生物【知识精研】免疫失调与免疫学的应用课件.pptx VIP
- 市政工程占道施工方案【可编辑】.doc
- 崩漏(功能失调性子宫出血)中医临床路径.pdf VIP
- 课件兽医法律法规.ppt
- 《人类简史》6分钟读完《人类简史》全部精华.docx VIP
- ipc6013中文版挠性印制板质量要求与性能规范汇编.doc
原创力文档


文档评论(0)