- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
行业资料第2次课数据仓库PPT课件
第,2,章,,数据仓库;第2章,数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;数据仓库基本概念;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;增量抽取;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;,,,,,,,,在数据仓库系统中,元数据可以帮助数据仓库管理员和
数据仓库的开发人员非常方便地找到他们所关心的数据。在
数据仓库系统中,元数据机制主要支持以下五类系统治理功能:
,,,,,,,,1,描述哪些数据在数据仓库中;
,,,,,,,,2,定义要进入数据仓库中的数据和从数据仓库中产生的数据;
,,,,,,,,3,记录根据业务事件发生而随之进行的数据抽取工作时间安排;
,,,,,,,,4,记录并检测系统数据一致性的要求和执行情况;
,,,,,,,,5,衡量数据质量。,;第2章 数据仓库;第2章 数据仓库;第2章 数据仓库;分割
,,,,,,,,是指把数据分散到各自的物理单元中去,以便能分别独立处理,提高数据处理效率。是粒度之后的第二个主要设计问题
两个层次的分割
系统层:DBMS,一种定义
应用层:开发者,多种定义
多种分割的标准
日期:最常用的
地理位置
组织单位…...;第2章 数据仓库;主要内容;第2章 数据仓库;元数据对数据仓库功能的支持:
,,,,,,,
,,,,,,,(一),数据仓库内容的描述
,,,,,,,,描述数据仓库中的各种复杂关系;
(1),I/O对象:支持数据仓库I/O操作的各种对象。例如,装入到数据仓库中的源系统文件及可被用户访问表的数据均为I/O对象。元数据要描述该I/O对象的定义、类型、状态、存档(刷新)周期以及引发初始存档的事件。
(2),关系:两个I/O对象之间的关联。这种关联分为一对一、一对多和多对多三种类型。在实际工作中,一般只考虑两种类型。即一对一和一对多的关系,多对多可以用多个一对多来表示。
(3)关系成员,描述每个关系中I/O对象的具体角色(在一对多中是父亲还是儿子)、关系度(是一对一还是一对多)及约束条件(是??须满足还是可选关系)。;
(4)关系关键字,描述两个I/O对象是如何建立关联的。每个关系都是通过I/O对象
的关键字来建立的,元数据要指明建立每个关系相应对象的关键字。
(5)域分配,将实际数据元素与I/O对象的某个域相关联。除了常规的域特征外,还
要说明每个域的所属源系统及访问日期。这两个特征对数据仓库都是非常重要的
(6)数据元素,描述数据仓库中基本单元(字段级)的特征。这些特征包括定义、类
型、长度、值域标识等。数据元素要能支持多媒体的大二进制对象。
,,,,,,,,元数据描述了数据仓库中有什么数据及数据间的关系,它们是用户使用和系
统管理数据仓库的基础。基于这种组织的元数据可以开发出各种通用的用户接
口,用来支持用户从数据仓库中获取数据。用户可以提出所需的表,系统从中选
择表并得到表之间的关系,重复这个过程直到用户得到他们希望的数据。不仅
如此,系统还有对某一特殊表(I/O对象)及域信息的描述功能。用这种形式组织
的元数据有利于数据仓库的扩充,因此不必修改已存在的软件就可在数据仓库
中增加新表。,;(二)定义数据抽取和转换
;(2)源数据与目标数据之间的映射是一种复杂的多对多关系。元数据要能够描述这些限制
所带来的一系列问题。这组元数据要定义的内容有以下几点:
抽取工作:描述每个抽取工作,并为其标识源系统。每一抽取都应有一个刷新类型代码,
一般有四种刷新类型,包括全仓库替换、全仓库附加、更新替换、更新追加。另外对每
一抽取都要明确其刷新周期(两次抽取之间的间隔)和初始触发事件(系统环境中激活第一
次抽取的事件)。
抽取工作步:定义抽取工作中的步骤包括说明每一步的类型(如过滤、验证等)及其作业控
制语言(Job,Control,Languge,TCL),JCL用来初始化抽取工作步。
抽取表映射:为每个抽取工作步建立输入文件/表和输出文件/表之间的关联。它应提供两
种类型的属性以满足抽取工作的特殊处理要求。一类是过程的输入数据集合;另一类是数
据处理过程标识及其参数。这些属性用来自动生成程序代码以完成相应抽取工作步。
抽取域映射:为每个抽取工作步建立输入表(文件)的域与输出表(文件)的域之间的关联。
其定义的内容与抽取表类似,但是处理的粒度是表中的每个域。;记录筛选规则:提供一种过滤机制,以在抽取工作的每一步骤中进行记录的筛选。
如下是一个
文档评论(0)