数据仓库中的ETL和元数据.ppt

  1. 1、本文档共77页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 元数据的标准化 数据共享领域的某些趋势说明数据仓库中的元数据需求正逐步增加,这些趋势包括: 数据模型处理的对象由传统的字符型和数值型扩展到多种媒体类型。 支持一家企业的数据仓库扩展到支持多个组织多个企业共享的数据仓库。 信息流控制由过去的从源系统到数据仓库的单向流动扩展到由数据仓库向源系统的反馈。 各个厂家的专用数据格式向公共开放标准元数据交换格式转换,以提高其信息捕获能力。 * 都柏林核心元数据集 由DCMI 负责维护的一种元数据标准 * 元数据的标准化 元数据联盟 MDC(meta data coalition) 1999,将OIM(open information model)作为元数据标准 采用UML定义 元数据管理工具:微软Repositry OMG(Object Management Group) 2001,颁布CWM(common warehouse metamodel)作为元数据标准 采用UML定义 OMG和MDC已经合并 * 数据仓库中的元数据管理 元数据管理功能: 提供按照合适版本获取和存储元数据的方法 支持元数据以用户能理解的统一方式集成和展现 支持元数据标准化:不同工具自由交换元数据 保持系统中元数据同步 元数据管理实现方法: 集中式的元数据知识库 分布式元数据知识库+标准的元数据交换格式 * 用元数据维护仓库 及时发现系统变化 找出需要调整的ETL程序 给出仓库中数据和指标的来源及规则 调整仓库的数据模型 促进项目组成员的沟通 监控数据质量 采用元数据跟用户确认新的需求 * 小结 ETL/元数据配合整体的建设策略 从简单元数据管理做起,规范ETL设计 项目必须分阶段依据元数据冻结需求 让业务人员尽早的使用元数据 小心数据质量的元数据,提供校验点 设计企业模型的同时,搭建数据集市 * 第三章 数据仓库中的ETL和元数据 ETL 元数据 外部数据 * 外部数据 来自于企业外,描述企业外部环境的数据称为外部数据 企业不仅需要了解企业内部的情况,还需要参考企业外部的信息 * 外部数据 外部数据和非结构化数据 元数据和外部数据 外部数据的存储 外部数据的管理 * 外部数据和非结构化数据 外部数据来源 咨询报告、报纸期刊 结构化数据 非结构化数据 -- 无法用数字或统一的结构来表示的 常见的非结构化数据:声音和图像 访问的频率/可用频率 数据的形式 不可预测性 * 元数据和外部数据 对元数据进行整理,生成通知数据(与用户相关的数据分类)。 当新的外部数据进入数据仓库时,系统可以查找通知文件和元数据得到与该项新外部数据相关的人员,通知他们已经获得了有关的新的外部数据。 * 外部数据的存储和管理 数量巨大 存储方式: 可以存储在数据仓库之外 如磁带、缩微胶片等 但在库内的元数据中做一个注册 对外部数据进行分类,重要数据联机存储,次要数据脱机存储。 * 第三章 数据仓库中的ETL和元数据 ETL 元数据 外部数据 此课件下载可自行编辑修改,供参考! 感谢您的支持,我们努力做得更好! * * * * * 元数据 元数据的概念 元数据的内容与用途 元数据的分类 元数据的使用、常见问题、解决建议 元数据的标准化及维护与管理 * 什么是元数据 “数据太多,信息太少” 只有充分理解数据才能分析数据,因此元数对数据仓库尤为重要。 元数据 关于数据仓库的数据 数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据,同时元数据还包含关于数据含义的商业信息,是整个数据仓库的核心. * 例子1 每张数码照片都包含EXIF信息,就是用来描述数码图片的元数据。按照Exif 2.1标准,其中主要包含这样一些信息 Image Description 图像描述、来源. 指生成图像的工具 Artist 作者 有些相机可以输入使用者的名字 Make 生产者 指产品生产厂家 Model 型号 指设备型号 Orientation方向 有的相机支持,有的不支持 Software软件 显示固件Firmware版本 DateTime日期和时间 …… * 例子2 IMDB本身也定义了一套元数据,用来描述每一部电影 下面是它的一级元数据,每一级下面又列出了二级元数据,总共加起来,可以从100多个方面刻画一部电影: Cast and Crew(演职人员)、Company Credits(相关公司)、Basic Data(基本情况)、Plot Quotes(情节和引语)、Fun Stuff(趣味信息)、Links to Other Sites(外部链接)、Box Office and Business(票房和商业开发)、Technical Info(技术信息)、Liter

文档评论(0)

浪漫唯美-文档菜鸟 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档