数据仓库和ETL学习笔记.pdfVIP

  • 2
  • 0
  • 约4.93千字
  • 约 8页
  • 2019-11-11 发布于四川
  • 举报
学习好资料 欢迎下载 数据仓库学习笔记 1、维度表的特征 (1 维度表键。维度表的主键可以唯一确定表的一行。 (2 维度表很宽。一个典型的维度表会有相当多的属性 /列。 (3 文本属性。维度表中的属性一般是文本格式的。 (4 非直接相关属性。维度表中的某些属性经常不会与其中的其他属性直接 相关。 (5 非规范化。规范化会导致维度表增多 ,查询效率降低。 (6 上钻 /下钻。维度表中的属性提供了获取从高层次的汇总信息到低层次细 节信息的能力。 (7 多级层次结构。维度表通常会有多种多级层次结构 ,从而使钻取可以沿 着这些多级层次结构中的任何一个进行。 (8 更少的记录。维度表中的记录通常会比事实表中的记录数更少。 2、事实表的特征 (1 连接的事实表主键。事实表中的一行记录与所有维度表中的相应记录相 关。事实表中的主键必须是所有维度表主键连接起来的组合键。 (2 数据颗粒。数据粒度是指标的细节程度。 (3 完全加和指标。 (4 半加和指标。如百分比。 学习好资料 欢迎下载 (5 表很长 ,但是不宽。通常事实表包含的属性比维度表更少。 (6 稀疏的数据。并不是所有维度属性的组合都会出现在事实表中 ,没有对 应的事实就不会出现在事实表中。 (7 退化的维度。有些数字属性不是指标也不是事实 ,这种属性有些是参考 数字 ,如订单数、发票号、订单流水号等 ,在某些类型的分析中是有用的。 (8 不含事实的事实表。当事实表表示事件的时候会出现这种情况。 3、星型模式的键 (1 维度表的键要用代理键。 (2 维度表的主键必须是事实表的外键。 (3 事实表的主键有 3 中选择 : a 一个单独的复合主键 ,长度是维度表键长度的总和。这种情况下 ,除了 复合主键外 ,外键必须作为附加的属性保存在事实表中。这种情况增加 了事实表的大小。 b 连接的主键 , 由维度表的主键连接而成。这样 ,就不需要将维度表的主 键作为附加的属性以外键的形式存放在事实表中了。主键的每一个独立 的部分都可以充当外键。 c 一个生成的主键 ,与维度表的键无关。除了生成的主键外 ,所有外键都 必须作为附加属性存放在事实表中。这种方式同样增加了事实表的大小。 ETL 学习笔记 学习好资料 欢迎下载 1、ETL 工具能做什么 ? ●从领先厂商的多种关系型数据库中抽取数据 ●从旧数据库、索引文件和平面文件中抽取数据 ●源字段和目标字段从一种格式向另一种格式进行的数据转换 ●执行标准转换、重定义键和结构性变化 ●提供从数据源到目标的检查轨迹 ●抽取和转换中商业规则的应用 ●将源系统中的几个记录组合成一个整合的目标记录 ●元数据的记录和管理 2、ETL 处理过程的主要步骤 (1 决定数据仓库中需要的所有目标数据 (2 决定所有的数据源 ,包括内部和外部 (3 准备从源到目标数据元素的数据映像关系 (4 建立全面的数据抽取规则 (5 决定数据转换和清洗规则 (6 为聚集表制定计划 (7 组织数据缓存区域和检查工具 (8 为所有的数据装载编写规程 (9 维度表的 ETL 学习好资料 欢迎下载 (10 事实表的 ETL 3、数据抽取的要点 ●数据源确认 —— 确认数据的源系统和结构 ●抽取方法 —— 针对每个数据源 ,定义抽取过程是人工抽取还是基于工具抽取 ● 抽取频率 —— 对于每个数据源 ,确定数据抽取的频率 ,每天、每星期、每季 度,等等。

文档评论(0)

1亿VIP精品文档

相关文档