- 16
- 0
- 约9.35千字
- 约 79页
- 2016-12-26 发布于贵州
- 举报
2.3.4 ETL工具 数据转换引擎 从指定的数据源中抽取数据,执行复杂的数据转换,将结果导入到目标表中。 代码生成器 根据数据源参数和输出,能自动生成数据抽取和转换程序。 通过复制捕获数据 在交易日志中捕获数据源的变化。 * 2.4 元数据 2.4.1 元数据的重要性 2.4.2 关于数据源的元数据 2.4.3 关于数据模型的元数据 2.4.4 关于数据仓库映射的元数据 2.4.5 关于数据仓库使用的元数据 * 2.4.1 元数据的重要性 元数据 * Table 逻辑名 顾客 定义 购买商品的个人或组织 物理存储 DB.table 建立日期 2008年1月15日 最后更新日期 2010年1月20日 更新周期 每月 表编辑程序名 ABC 2.4.1 元数据的重要性 元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。 * Table 逻辑名 顾客 定义 购买商品的个人或组织 物理存储 DB.table 建立日期 2008年1月15日 最后更新日期 2010年1月20日 更新周期 每月 表编辑程序名 ABC 2.4.1 元数据的重要性 有两类人会用到元数据:最终用户(包括商业分析人员和IT人员)。 最终用户: 从数据仓库获取信息。 包括:数据内容、汇总数据、商业维度、指标、浏览路径、源系统、外部数据、转换规则、查询模板、报表等 最终用户需要的元数据,称为商业元数据。 * 2.4.1 元数据的重要性 有两类人会用到元数据:最终用户(包括商业分析人员和IT人员)。 IT人员: 从ETL,到报表设计,OLAP都需要。 包括:源数据结构、源平台、ETL方法和规则、外部数据、装载、查询、报表设计等 IT人员需要的元数据,称为技术元数据。 包括四类:数据源元数据,数据模型元数据,数据仓库映射元数据,数据仓库使用元数据。 * * * 这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为: (1)数据源中所有物理数据结构,包括所有的数据项及数据类型。 数据项是数据的最小组成单位。通常包括数据项名、数据项含义说明、数据类型、长度、取值等。 如FoodIntro 菜品简介 nvarchar 50 null 数据结构:若干个数据项可以组成一个数据结构,如某表(菜品ID,分类ID,菜名,菜品简介,价格,图片) 2.4.2关于数据源的元数据 元数据示例 某表1 菜品表:Food列 名 中文名称 数据类型 长度 是否允许为空 备注FoodID 菜品ID Int Not null 主键FoodclassID 分类ID Int null **foodName 菜名 nvarchar 25 null FoodIntro 菜品简介 nvarchar 50 null **FoodPrice 价格 Float null FoodImage 图片 varchar 100 null 保存图片路径 元数据示例 数据文件:订单明细表 文件组成:订单序号Id, 订单编号, 菜名, 价格, 数量, 下单时间 数 据 项:订单序号Id 数据类型:整型 数据长度:4 数 据 项:订单编号 数据类型:可变字符类型 数据长度:50 数据组成:A+日期时间 数 据 项:菜名 数据类型:可变字符类型 数据长度:50 数 据 项:价格 数据类型:整型 数据长度:4 数 据 项:数量 数据类型:整型 数据长度:4 数 据 项:下单时间 数据类型:日期型 数据长度:8 * 这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为: (1)数据源中所有物理数据结构,包括所有的数据项及数据类型。 (2)所有数据项的业务定义。 (3)每个数据项更新的频率,以及由谁或哪个过程更新的说明。 (4)每个数据项的有效值。 2.4.2关于数据源的元数据 * 这组元数据描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础。 这种的元数据可以支持用户从数据仓库中获取数据。 2.4.3关于数据模型的元数据 2.4.4关于数据仓库映射的元数据 这类元数据是数据源与数据仓库数据间的映射。 当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源抽取的,经过那些转换,变换
原创力文档

文档评论(0)