数据仓库数据存储与处理.pptVIP

  • 2
  • 0
  • 约2.09千字
  • 约 21页
  • 2019-11-06 发布于广东
  • 举报
数据仓库与数据挖掘 数据仓库与数据挖掘 * 数据仓库与数据挖掘 * 第2章 数据仓库的数据存储与处理 * 数据仓库与数据挖掘 * 2.1 数据仓库的三层数据结构 数据层 元数据层 * 数据仓库与数据挖掘 * 2.2 数据仓库的数据特征 状态数据与事件数据 当前数据与周期数据 数据仓库中的元数据 * 数据仓库与数据挖掘 * 2.2.1 状态数据与事件数据 状态数据:描述对象的状态 事件数据:描述对象发生的事件 状态数据与事件数据的关系: (前像)状态数据→事件数据→(后像)状态数据 (事务处理) 事务与事件: * 数据仓库与数据挖掘 * 2.2.2 当前数据与周期数据 当前数据:最新数据 特点:数据量小,修改后无痕迹,作为状态数据看不出与任何事件有关,作为事件数据也不受某种状态制约。 周期数据:按时间或日期来保存的历史数据 特点:数据量大,修改后有痕迹,状态数据的前像与后像与某个(或某些)事件数据有关,通常只有状态数据。 注:有痕迹与无痕迹修改 * 数据仓库与数据挖掘 * 2.2.3 元数据(也叫做数据字典) 技术元数据:描述关于数据仓库细节的数据。包含如下信息: 1)数据仓库结构的描述 2)业务系统、数据仓库和数据集市的体系结构和模式 3)汇总算法 4)由操作型业务环境到数据仓库环境的映射 业务元数据:从业务角度描述了数据仓库中的数据。包含如下信息 1)使用者的业务术语所表达的数据模型、对象名和属性名 2)访问数据的原则和数据来源 3)系统所提供的分析方法及公式和报表的信息 * 数据仓库与数据挖掘 * 2.3 数据仓库的数据ETL过程 ETL概念 ETL过程前后数据的特征 数据的ETL过程描述 抽取(Capture/Extract) 清洗(Scrub/Cleanse) 转换(Transform) 加载和索引(Load/Index) * 数据仓库与数据挖掘 * ETL的概念 数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrub or data cleansing)、转换(Transform)、装载与索引(Load and Index)等数据调和工作 * 数据仓库与数据挖掘 * 2.3.1 ETL的目标 为决策支持应用提供一个单一的、权威的数据源 详细的、历史的、规范化的、可理解的、即时的质量、可控制的数据 * 数据仓库与数据挖掘 * 2.3.2 ETL过程描述 * 数据仓库与数据挖掘 * 2.3.3 数据抽取 从源文件和源数据库中获取相关数据用于填充数据仓库称为抽取 静态抽取与增量抽取 * 数据仓库与数据挖掘 * 2.3.4 数据清洗 识别并且舍弃错误数据 可能出现的数据错误如下: 1)错误拼写的名字或地址 2)不可能的或错误的日期 3)没有使用目的的字段 4)不匹配的地址或电话区号 5)缺失的数据 6)重复的数据 7)跨源的不一致性(例如不同的地址)等 * 数据仓库与数据挖掘 * 2.3.4 数据清洗 数据清洗的任务: * 数据仓库与数据挖掘 * 2.3.5 数据转换 将数据从源操作型业务系统的格式转换为企业级数据仓库的数据格式 转换功能:记录级功能和字段级功能 * 数据仓库与数据挖掘 * 2.3.6 数据加载和索引 将数据加载到数据仓库或数据集市的过程 两种加载方式:刷新方式和更新方式 数据更新的频度问题 * 数据仓库与数据挖掘 * 数据ETL过程的实施要点 ETL过程是一个数据流动的过程,中间的“T”(转换)是关键 ; ETL工具的选择非常重要,运用合适的工具会事半功倍 ; 如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值 。 * 数据仓库与数据挖掘 * 2.4 多维数据模型和星模式 多维数据模型及其相关概念 多维数据模型的物理实现 多维建模技术简介 一个星模式的例子 * 数据仓库与数据挖掘 * 多维数据模型及其相关概念 有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等 关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级 * 数据仓库与数据挖掘 * 多维数据模型的物理实现 多维数据库(MDDB),其数据是存储在大量的多维数组中,而不是关系表中 ,与之相对应的是多维联机分析处理(MOLAP) 关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP) * 数据仓库与数据挖掘 * 多维建模技术简介 两种主流建模技术 :由Inmon提出的企业级数据仓库模型和由Kimball提出的多维模型 ;

文档评论(0)

1亿VIP精品文档

相关文档