数据仓库与数据挖掘原理及应用(第二版)教学课件 作者 王丽珍 周丽华 陈红梅 第2章.pptVIP

数据仓库与数据挖掘原理及应用(第二版)教学课件 作者 王丽珍 周丽华 陈红梅 第2章.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘原理及应用(第二版)教学课件 作者 王丽珍 周丽华 陈红梅 第2章

在线教务辅导网:; 第二章 数据仓库中的ETL和元数据 ;第二章 目录;2.1 ETL 2.1.1 ETL概念(1); 通常而言,开发一个数据仓库项目包括了三个主要步骤:需求/建模,ETL开发和前端开发。其中,ETL是构建数据仓库的重要一环,同时也是构建数据仓库的基础与前提,是数据仓库从业务系统获得数据的必经之路。用户从数据源抽取出所需的数据,经过数据清洗和转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。; 在数据仓库建设的业务需求和数据分析阶段,我们将创建许多种数据映射信息。ETL 数据映射表是指导ETL过程设计的最佳方式,可以将该表用作与业务客户就数据映射和ETL过程问题进行交流的方式。ETL数据映射表有不同的级别,如实体级别和属性级别。每个级别中都具有不同级别的详细数据映射信息。表2.1是一个实体级别的ETL数据映射表的简化例子。该表中的每个“X”表示到操作细节或较低级数据映射文档的链接。; 1. 数据提取(Data Extract) 数据提取是捕获源数据的过程。有两种捕获数据的主要方法: ● 完全刷新 ● 增量更新 完全刷新,顾名思义,是对移入数据仓库的数据进行完全复制。该复制可能替换数据仓库中的内容,及时在新的时间点上添加完整的新副本,或者与目标数据进行比较,以便在目标中生成一条修改记录。增量更新的关注重点是只捕获源数据中修改的数据。 数据的提取须既能满足决策的需要,又不影响业务系统的性能,所以进行数据提取时应制定相应的策略,包括提取方式、提取时机、提取周期等内容。 在制定提取策略时,需要对数据的种类、数据的特征以及数据内容等各项因素综合考虑。通常情况下,流水型增长且数据量大的数据适合采用增量更新的方式;经常变化更新的数据适合采用完全刷新的方式;对于两者结合的数据,优先考虑增量更新方式,其次才考虑完全刷新的方式。 对于提取周期要考虑实际业务的需要和提取进行的系统代价,在可能的情况下,尽量缩短提取周期。; 2. 数据验证(Data Verification) 数据验证是一个处理不尽人意(less-than-perfect)的数据的过程。 在数据仓库建设的业务数据分析阶段,一般产生了一组数据质量假设。这些假设将指定客户和仓库建设者双方在数据质量问题上的职责。仓库建设者通常通过数据清理和增强等方法保证仓库的质量,而客户则可以从数据源本身出发,来有效地解决数据质量问题,这常常是保证数据质量的关键问题。例如: ● 丢失的数据恢复。 ● 模糊的数据转换。 ● 业务操作应用程序带来的数据质量问题 —— 只能从应用程序本身解决的数据质量问题。 一般应该在数据仓库建设的合同文档中包含数据质量假设,因为如果没有用正确的方法及时解决业务数据的质量问题,它可能严重影响数据仓库建设的时间表。数据质量假设可能是与客户进行时间表协商的一个重要条件。; 即使假设客户将承担其责任,解决他们业务数据源中的数据质量问题,但将来仍然可能在业务数据源中再次产生质量较差的数据。在那些数据对后面的ETL过程产生负面影响之前,实现数据验证,用ETL的数据验证模块来拒绝它们就显得十分重要。数据验证包含许多检查,其中主要包括: ● 属性的有效值(域检查)。 ● 属性在剩余行的环境中是有效的。 ● 属性在该表或其他表中相关的环境中是有效的。 ● 关系在该表和其他表中的行间是有效的(外键检查)。 ● 这并非是一个详尽的列表。它仅仅强调了数据验证的一些基本概念。; 3. 数据清理(Data Cleaning) 数据清理是清理有效数据,使之更精确更有意义的过程。数据清理包括下列任务: ● 数据合并。 ● 域转换和同步。 ● 数据类型和格式的转换。 ● 用于不同目标表的数据分离(Data splitting)。 数据合并的一个常见例子就是姓名和地址信息。客户的姓名和地址信息通常存储在多个位置上。经过一段时间,这些信息可能就不同步了。; 一般的数据清理将提供下

您可能关注的文档

文档评论(0)

dajia1qi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档