- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
开题报告面向ETL过程的数据质量控制框架设计与实现.docx
硕士生:刘闵 导师:叶丹
软件工程技术中心
2009 2?24
内家提纲
?:?选题依据及意义
?国内外研克现状
弘研克內彖与研克方案 *工作进畏与工作计划 ?:?参考丈献
? ETL (Extract, Transform, Load)
ETL完成路操作糸统、蹲教据源的数据抽取,并将教据经过一定的转换操 作,最终加我到目的端数据源,是数据集成,数据交换糸统的重要组 成部分。
OnceD12.0就是典型的ETL工具。
■任务往往具有事务特点■增量数据具有不可重复性
■任务往往具有事务特点
■增量数据具有不可重复性
要求ETL尽可能的
能一次性地成功执
但低劣的数据质量往往导致ETL的央败
? ETL中存在的数据质量问题
模式层1■卖例层!模式层■?不符合唯一性?拼写错误?名称冲突?不符合外键?重复记录?冲突记录?结构冲突?数据时间不一致?字段格式不同?重复记录10-16-1999
模式层1
■
卖例层!
模式层
■
?不符合唯一性
?拼写错误
?名称冲突
?不符合外键
?重复记录
?冲突记录
?结构冲突
?数据时间不一致
?字段格式不同
?重复记录
10-16-1999
?:?ETL缺乏统一的数据质量控制框架
?:?现有数据质量糸统
■业界的质量工具往往只针对禁些特走的问题,没有与
ETL糸统很好的结合。
■目前数据质量工具与丸量用户交互行为,而丸多数的
ETL过程往往需要周期性自动执行,当ETL运行肘,人
为交互的要求不能满足。
?:?右发
■将数据质量控制握架集成到ETL过程中,细化ETL过 程
,提供可配置的方法将数据质量工具作用于ETL,提 當ETL过程执行的成功率.
Metadata flow
Instance characteristics
(real metadata)
Mappings between source and target
J」 schema
选提依据及意义
■谏计并卖现面向
■谏计并卖现面向ETL的数据质量框架,
将数据质量
具作用于ETL过程?
■提供适合于ETL的数据质量工具集合.
■设计一套可扩畏接口, 据请洗操作.
■设计一套可扩畏接口, 据请洗操作.
便于用户定制或集成新的数
国內外研克现状
?商用数据质量工具关注以下问题
■字段的解析和才示准化
■重复诃录检测
■数据的分析统计
■数据转换过程中的监控
■数据加强
?现有的数据质量工具
■商用的:Data Explorer Data Quality (Informatica), First Logic (Business Object), Oracle OWB (Oracle), WinPure (WinPure)
■开源 Data Cleaner, Talend
■学术界:AJAX, Potter s Wheel, IntelliClean
■这些数据质量工具与ETL相对独立,往往只针对特定的教据质量问
題。
国內外研克现状
工具的上匕
名称
Profili ng
Parse
Standardize
Correct
Enhance
Match
与ETL结
Data Explorer
有
无
无
无
无
无
无
Data Quality
有
有
有
有
有
有
无
First Logic
有
有
有
有
有
有
无
OWB
有
有
有
有
有
有
有
WinPure
有
有
有
有
无
有
无
Data Cleaner
有
有
有
无
无
有
无
Talend
无
有
无
有
无
有
无
AJAX, Potter s Wheel, IntelliClean主要从数据质量建模角度出发,刻屍数据质量过程.
OracleOWB中数据质量工具与ETL x具相互结合,为业界ETL发畏的趋如
研克内家及研克方秦
Dl的数据质量控制糸统框 架
p
Ap
SabinossnouIOUEnv
Oontrol
IouuelloRffi
[]CB \ Ratfile )
{) adapter J … adapter J
Source Adapt
Filtering Manager
Profiling Manager
Statistical metadata
1
1
n
Data Oualitv Framework
数据统 计分析(Data Profiling)
?:?作用
■ 了解数据质量,分析元数据
■輔助ETL的设计过程
■輔助数据请理
?:?数据统计的维度
■字段属性
■字段属性
■结构属性
Columns
Pattern
Format
Format % Compliant
Unique
Hdate
YYYY-MM-DD
Date
82%
SSN
9(3)-9(2)-9(4)
US Social Security Number
3%
Phon
您可能关注的文档
最近下载
- 办公设备维护方案.docx VIP
- 浙江省杭州市学军中学四校区2022-2023学年高二上学期期末物理试题(含答案解析).docx
- 《金瓶梅》中潘金莲“绣鞋”之物象探析.doc VIP
- 14s501-1P35-37页球磨铸铁踏步施工检验标准.pdf VIP
- 2026年上海市松江区中考一模化学试卷含详解.docx VIP
- 2025研读新课标,探寻数学教育新方向——读《小学数学新课程标准》有感.docx
- 如何通过手机号码查询行动轨迹.docx VIP
- SY∕T 5466-2013_钻前工程及井场布置技术要求.pdf VIP
- 2025年二年级上册数学解决问题100道附参考答案(综合题) .pdf VIP
- 横河DCS系统与APC接口的实现方法.docx VIP
原创力文档


文档评论(0)