- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘原理及应用(第二版)教学课件 作者 王丽珍 周丽华 陈红梅 第2章
在线教务辅导网:; 第二章 数据仓库中的ETL和元数据;第二章 目录;2.1 ETL 2.1.1 ETL概念(1); 通常而言,开发一个数据仓库项目包括了三个主要步骤:需求/建模,ETL开发和前端开发。其中,ETL是构建数据仓库的重要一环,同时也是构建数据仓库的基础与前提,是数据仓库从业务系统获得数据的必经之路。用户从数据源抽取出所需的数据,经过数据清洗和转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。; 在数据仓库建设的业务需求和数据分析阶段,我们将创建许多种数据映射信息。ETL 数据映射表是指导ETL过程设计的最佳方式,可以将该表用作与业务客户就数据映射和ETL过程问题进行交流的方式。ETL数据映射表有不同的级别,如实体级别和属性级别。每个级别中都具有不同级别的详细数据映射信息。表2.1是一个实体级别的ETL数据映射表的简化例子。该表中的每个“X”表示到操作细节或较低级数据映射文档的链接。; 1. 数据提取(Data Extract)
数据提取是捕获源数据的过程。有两种捕获数据的主要方法:
● 完全刷新
● 增量更新
完全刷新,顾名思义,是对移入数据仓库的数据进行完全复制。该复制可能替换数据仓库中的内容,及时在新的时间点上添加完整的新副本,或者与目标数据进行比较,以便在目标中生成一条修改记录。增量更新的关注重点是只捕获源数据中修改的数据。
数据的提取须既能满足决策的需要,又不影响业务系统的性能,所以进行数据提取时应制定相应的策略,包括提取方式、提取时机、提取周期等内容。
在制定提取策略时,需要对数据的种类、数据的特征以及数据内容等各项因素综合考虑。通常情况下,流水型增长且数据量大的数据适合采用增量更新的方式;经常变化更新的数据适合采用完全刷新的方式;对于两者结合的数据,优先考虑增量更新方式,其次才考虑完全刷新的方式。
对于提取周期要考虑实际业务的需要和提取进行的系统代价,在可能的情况下,尽量缩短提取周期。; 2. 数据验证(Data Verification)
数据验证是一个处理不尽人意(less-than-perfect)的数据的过程。
在数据仓库建设的业务数据分析阶段,一般产生了一组数据质量假设。这些假设将指定客户和仓库建设者双方在数据质量问题上的职责。仓库建设者通常通过数据清理和增强等方法保证仓库的质量,而客户则可以从数据源本身出发,来有效地解决数据质量问题,这常常是保证数据质量的关键问题。例如:
● 丢失的数据恢复。
● 模糊的数据转换。
● 业务操作应用程序带来的数据质量问题 —— 只能从应用程序本身解决的数据质量问题。
一般应该在数据仓库建设的合同文档中包含数据质量假设,因为如果没有用正确的方法及时解决业务数据的质量问题,它可能严重影响数据仓库建设的时间表。数据质量假设可能是与客户进行时间表协商的一个重要条件。; 即使假设客户将承担其责任,解决他们业务数据源中的数据质量问题,但将来仍然可能在业务数据源中再次产生质量较差的数据。在那些数据对后面的ETL过程产生负面影响之前,实现数据验证,用ETL的数据验证模块来拒绝它们就显得十分重要。数据验证包含许多检查,其中主要包括:
● 属性的有效值(域检查)。
● 属性在剩余行的环境中是有效的。
● 属性在该表或其他表中相关的环境中是有效的。
● 关系在该表和其他表中的行间是有效的(外键检查)。
● 这并非是一个详尽的列表。它仅仅强调了数据验证的一些基本概念。; 3. 数据清理(Data Cleaning)
数据清理是清理有效数据,使之更精确更有意义的过程。数据清理包括下列任务:
● 数据合并。
● 域转换和同步。
● 数据类型和格式的转换。
● 用于不同目标表的数据分离(Data splitting)。
数据合并的一个常见例子就是姓名和地址信息。客户的姓名和地址信息通常存储在多个位置上。经过一段时间,这些信息可能就不同步了。; 一般的数据清理将提供下
您可能关注的文档
- 师说2015-2016高中语文第6单元《墨子》选读1 兼爱ppt课件 新人教版选修《先秦诸子选读》.ppt
- 师说系列2013年高考地理二轮复习ppt课件专题五选修部分第2讲 自然灾害与防治.ppt
- 师说2015-2016高中历史人教版必修1ppt课件第7课《英国君主立宪制的建立》.ppt
- 常州市武进区夏溪初级中学七年级生物下册123《感知信息》ppt课件苏教版.ppt
- 常慧五年级上册数学《组合图形面积》课件.ppt
- 师说系列2013年高考地理二轮复习(知识网络构建核心考点突破随堂训练)专题三 人文地理事象的形成和变化 第5讲 地域联系ppt课件.ppt
- 师说系列2013年高考地理二轮复习(知识网络构建核心考点突破随堂训练)专题三 人文地理事象的形成和变化 第3讲 农业ppt课件.ppt
- 常州市西夏墅中学高三语文复习ppt课件《祝福》(人教版).ppt
- 布丁HOUSE欢乐嘉年华主题营销活动策划方案精品推荐课件_1.ppt
- 平行四边形的面积《平行四边形的面积》课件龙波中心学校五年级上.ppt
- 数据仓库与数据挖掘原理及应用(第二版)教学课件 作者 王丽珍 周丽华 陈红梅 第4章.ppt
- 数据仓库与数据挖掘原理及应用(第二版)教学课件 作者 王丽珍 周丽华 陈红梅 第7章.ppt
- 数据仓库与数据挖掘原理及应用(第二版)教学课件 作者 王丽珍 周丽华 陈红梅 第6章.ppt
- 数据仓库与数据挖掘原理及应用(第二版)教学课件 作者 王丽珍 周丽华 陈红梅 第5章.ppt
- 数据仓库与数据挖掘原理及应用(第二版)教学课件 作者 王丽珍 周丽华 陈红梅 第9章.ppt
- 数据仓库与数据挖掘综述课件.ppt
- 数据仓库与数据挖掘课件6Classification and .ppt
- 数据仓库与数据挖掘课件9Mining Object Spatial and Multimedia .ppt
- 数据仓库与数据挖掘原理及应用(第二版)教学课件 作者 王丽珍 周丽华 陈红梅 第8章.ppt
- 数据仓库与数据挖掘课件(精).ppt
最近下载
- 大班户外游戏教案100篇.doc VIP
- 北京市西城区2024届高三下学期5月模拟测试数学(解析版).pdf VIP
- 部编版六年级语文上册一二单元测试卷.doc VIP
- 2024年9月江苏省税务系统遴选面试真题带详解.docx VIP
- 20192020学年人教部编版六年级语文上册第一二单元测试卷.doc VIP
- 【人教部编版】小学语文六年级上册单元测试卷汇编一.pdf VIP
- 部编版六年级上册第一单元测试卷 人教(部编版).doc VIP
- 湖南省衡阳市名校联考联合体2024届高三高考考前仿真联考一数学试题含答案.docx VIP
- 年产6万吨合成蜡深加工项目(红石化工公司)环境影响报告.docx
- DB21T1342-2021 建筑工程文件编制归档规程.pdf
文档评论(0)