- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘原理及应用-2-数据仓库中的ETL和元数据
数据抽取 在数据抽取时,需要重点考虑抽取的效率,以及对现有业务系统性能和安全的影响 进行数据抽取时应制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容 对于流水型增长且数据量大的数据适合采用增量抽取的方式; 对于经常变化更新的数据适合采用完全抽取的方式; 对于两者结合的数据,优先考虑增量抽取方式,其次才考虑完全抽取的方式。 对于抽取周期要考虑实际业务的需求和抽取进行的系统代价,在可能的情况下,尽量缩短抽取周期。 数据转换和数据清洗 进行数据的转换、清洗、拆分、汇总等处理 主要完成由于以下原因造成的数据不一致的问题 源数据系统同数据仓库系统在模型上的差异 源数据系统不一致,存在大量的转码工作 源数据结构的不一致 源数据定义不规范导致错误数据 对数据的约束不严格,导致无意义数据 存在重复记录 数据转换和数据清洗工作一般会在以下几个环节中具体实现: 在数据抽取过程中进行数据处理 使用异步数据装载,以文件的方式处理 在数据装载过程中进行数据处理 进入数据仓库以后再进行数据处理 数据装载 要求数据装载工具具有高效的装载性能 主要的数据装载技术 使用数据仓库引擎厂商提供的数据装载工具进行数据装载 通过数据仓库引擎厂商提供的API编程进行数据装载 数据的追加策略 直接追加 全部覆盖 更新追加 元数据的分类 管理类元数据 数据仓库结构的描述 业务系统、数据仓库和数据集市的体系结构和模式 汇总用的算法,包括度量和维定义的算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告。 有操作环境到数据仓库环境的映射 用户类元数据 应该如何连接数据仓库 可以访问数据仓库的哪些部分 所需要的数据来自哪一个源系统 元数据的内容: (1)DW的主题描述:主题名,公共码键,描述信息等; (2)外部数据和非结构化数据的描述:外部数据源名,存储地点,存储内容描述; (3)记录系统定义:主题名,属性名,数据源系统,源表名,源属性名; (4)逻辑模型的定义:关系名,属性1,…,属性n; (5)数据进入DW的转换规则; (6)数据的抽取历史; (7)粒度的定义; (8)数据分割的定义; (9)广义索引:广义索引名,属性1,…,属性n; (10)有关存储路径和结构的描述。 元数据的来源 元数据存在于数据仓库过程中的每个步骤,在不同的数据仓库处理过程中都会产生一些新的元数据 源系统 数据抽取阶段 数据清洗和转换阶段 数据装载阶段 数据存储阶段 信息传递阶段 第2章 数据仓库中的 ETL和元数据 2.1 ETL ETL是数据从业务系统抽取转化到数据仓库的过程,包含了如下子过程:数据抽取、数据转换、数据清洗、数据装载。 数据源 数据抽取 数据转换 数据 装载 ETL 决策支持系统数据仓库 知识库 数据仓库 业务分类 联机分析 OLAP 客户端 图2.1 数据仓库开发过程 2.1.2 ETL作用 解决数据分散问题 解决数据不清洁问题 方便企业各部门构筑数据集市 2.2 元数据 业务系统 元数据的概念 元数据是关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义,转换规则等相关的关键数据,同时元数据还包含关于数据定义的商业信息。 外部数据 外部数据 数据仓库 数据表示 即席查询 报表 EIS 数据挖掘 OLAP 元数据管理 图2.2 元数据的应用 元数据的作用 元数据是进行数据集成所必需的 元数据定义的语义层可以帮助最终用户理解数据仓库中的数据 元数据是保证数据质量的关键 元数据可以支持需求变化 即席查询 OLAP分析 数据挖掘 企业数据模型、多维数据模型 数据仓库 RDBMS 外部数据源 业务层 数据仓库层 操作环境层 元数据 知识库 用户元数据 管理元数据 图2.3 数据仓库系统的一般体系结构 2.2.2 元数据的标准化 1. MDC的OIM存储模型 2. OMG组织的CWM模型 3. CWM与OIM之间的关系 2.2.3 数据仓库中的元数据管理 1. 元数据管理的具体内容 (1) 获取并存储元数据 (2) 元数据集成 (3) 元数据标准化 (4) 保持元数据的同步 2.3 外部数据 2.3.1 外部数据和非结构化数据 现有系统 数据仓库 外部数据 图2.5 数据仓库源数据的来源 2.3.2元数据和外部数据 非结构化数据 外部数据 元数据 数据仓库 元数据: 文件标识符 进入日期 文件描述 文件来源 文件的分类 索引字 清理日期 物理地址引用 文件长度 相关参考 图2.6 元
您可能关注的文档
- 手术室安全管理.ppt.ppt
- 手术室安全核查制度(ppt).ppt
- 手机客服接待维修客户流程以及拆机技巧.ppt
- 房屋建筑学_部分3(共计933页).pptx
- 房地产行业信息化整体解决方案.ppt
- 手机流量奖励营销方案.pptx
- 手机游戏运营培训---手机游戏行业简介.ppt
- 手工具质量检验介绍.ppt
- 房屋建筑学_部分4(共计933页).pptx
- 手机精装盒外观检验标准.ppt
- 2025年肥西县先进制造业开发区管委会招聘笔试模拟试题附答案.docx
- 2025年肥西县农业农村局下属事业单位招聘笔试模拟试题附答案.docx
- 2025年肥西县技监局下属单位招聘备考题库附答案.docx
- 2025年肥西县农业农村局下属事业单位招聘笔试模拟试题附答案.docx
- 2025年肥西县统计局下属事业单位招聘笔试参考题库附答案.docx
- 2025年腾冲县效能服务中心招聘笔试模拟试题附答案.docx
- 2025年肥乡县安监局下属单位招聘备考题库附答案.docx
- 2025年肥乡县文化局下属单位招聘备考题库附答案.docx
- 2025年肥乡县物价局下属单位招聘备考题库附答案.docx
- 2025年肥乡县工信局下属事业单位招聘笔试模拟试题附答案.docx
原创力文档


文档评论(0)