- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
美河学习在线 仅学习参考
ETL 开发实施中质量保证的关键步骤
关键字:
数据仓库、ETL、数据源分析、数据质量保证
简介:
本文主要从数据仓库中ETL 开发实施的流程、数据源分析、质量保证方面进行探
讨,并提出解决建议方案。
1、引言
数据仓库项目实施的成败关键因素之一就是数据的抽取及抽取过程中数据的质量如何得
到保证,在数据仓库实现过程中,我们不得不在旧有的数据中艰难跋涉,这些数据来自老的
数据库、老的磁带机以及远程的多个数据源的数据。它们中的大部分都凌乱不堪,并且难以
获取。我们要对这些数据进行大量处理,并且还要设计ETL 程序来寻找其中的有用信息。这
就要求开发人员必须花费足够的时间来充分研究这些旧有数据,将凌乱的数据规则化,并尽
力设计和实现强壮的数据采集和转换过程,如没有对源数据进行整理、数据标准化等基础工
作,很可能造成数据仓库项目的基础不牢,结果是“中看不中用”,数据仓库项目的很多实践
表明,ETL(Extract-Transform-Load)部分会占用整个项目资源的百分之八十。
首先,合理的开发流程是ETL 实施的必要前提。数据仓库项目往往是面向多个系统、海
量数据的庞然大物,面对各种各样纷杂的头绪一套系统、科学、行之有效的开发流程必不可
少。
其次数据源分析将是一项非常重要的基础性工作,整个分析工作任务琐碎、繁杂,工作
量巨大,是数据仓库系统建设中最为耗时费力的工作之一。数据源分析既需要分析者具备丰
富的业务经验、数据库设计经验,也需要分析者有细致、耐心和执著的工作精神,更需要恰
当、高效的工作方法。
另外ETL 开发的质量检核将是系统运行维护的重要保证。测试是否完整可靠将直接决定
数据仓库中数据的可用性,文档是否真实全面也将是影响数据仓库的后续开发的重要因素。
ETL 的开发是数据仓库实施成功的关键,本文将就如何实现ETL 流程开发与实施中的质
量保证做一下探讨,主要从开发流程、数据源分析、质量保证等几方面进行阐述。
美河学习在线 仅学习参考
2、ETL 开发流程
从上面的开发流程图中,我们对ETL 的整个开发过程有了清楚的认识。实施的过程中要
包括业务需求分析、数据源分析、ETL 规则确定、ETL 概要设计、ETL 详细设计、ETL 编
码、单元测试、数据质量测试、ETL 流程测试、ETL 性能优化等步骤。在实施过程中 ETL
规则评审与数据质量的评审都是基于数据源分析的正确性,也是数据仓库实施成功与否的关
键,如数据源分析的不正确,整个项目实施的结果将是“中看不看用”。测试将是开发流程
中的另一瓶颈,保证着是否能把真实有用的源系统数据转入到数据仓库中来。
美河学习在线 仅学习参考
3、数据源分析
从开发的流程中,数据源分析将输出《数据源分析报告》、《ETL 抽取规则》、《脏数据处
理规则》等正式文档及一些中间结果,这几份文档的质量是决定后续实施是否顺利、是否需
要返工的基础。 数据源分析工作主要是提取源系统符合业务需求的数据项并对源系统数据
质量进行,下面我们将分几方面进行讨论。
3.1、数据质量衡量分类
高质量的数据是指那些符合业务需求的数据。对源系统数据的衡量分类隐含着制定数据
仓库数据标准的工作,而且在此基础上需保证所取数据的真实性、可用性。衡量数据质量可
在以下几个方面进行,并在需要采集的数据源中进行评估,分析数据源的质量,得出相应的
ETL 规则:
数据质量特征 描述
正确性 • 数据值必须与数据域一致
准确性 • 一个数据值与设定为准确的值之间的一致程度
• 由业务专家审查决定是否没有错误
完全性 • 一致性——维护数据使不同系统的数据没有差异和相互矛
盾
• 一组数据满足一组约束条件的程度
完整性 • 不同系统的相关数据之间联接是正确的
唯一性 • 决定数据记录(和关键数据值)不被重复定义和使用的能
您可能关注的文档
最近下载
- 海浦蒙特HD800L系列电梯专用控制器用户手册-中-V1.0.pdf VIP
- 消杀蚊虫台账记录word编辑版.doc VIP
- 2025年计算机计算机二级-MS Office高级应用与设计参考题库含答案解析.docx VIP
- 一位妈妈写给叛逆儿子的信,有孩子的必须给孩子读一遍.doc VIP
- 暖通空调系统水力平衡与解决方案.ppt VIP
- 暖通空调系统全面水力平衡解决方案(2014年第一版)-N.ppt VIP
- 8.1功与功率 (教学课件)-高中物理人教版(2019)必修第二册 .pptx VIP
- 资金管理复习试题附答案(一).doc
- 《归园田居(其一)》课件30张.pptx
- 腹膜后疾病影像诊断思路.pptx VIP
文档评论(0)