数据挖掘 EL演示 数据仓库.pptVIP

  • 14
  • 0
  • 约1.22千字
  • 约 21页
  • 2017-06-12 发布于河南
  • 举报
数据挖掘 EL演示 数据仓库

;ETL(Extraction,Transformation,Loading)即数据的抽取、转换与装载。ETL工具可将业务系统中分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库,成为联机分析处理、数据挖掘的基础,为辅助决策、分析、查询提供统一的数据依据。 ;; 将原始数据从业务系统中读取出来的过程。 确定如何抽取源数据并非易事,需要对业务深刻了解,因此需要慎重规划: 在数据抽取前要充分理解数据源和数据定义 规划需要的数据源和数据定义 制定可操作的数据源 制定增量抽取的方案 ; 转换主要是针对数据仓库建立的模型,通过一系列的转换来实现数据从业务模型到分析模型。 数据转换是真正将源数据变为目标数据的关键环节,包括以下内容: 数据格式转换 数据类型转换 数据汇总计算 数据拼接 ……; 清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的记录先剔除出来,然后根据实际情况调整相应的清洗操作。 主要的数据质量问题有以下几种: 缺失数据 错误数据 数据重复 数据冲突 …… ; 数据加载主要是将经过转换和清洗的数据加载到数据仓库中,这时的数据已经是基于分析模型组织起来的。 数据加载通常分为以下几种方式 初始加载。一次对整个数据仓库进行装载。 增量加载。保证数据仓库与源数据变化的同期性。(触发

文档评论(0)

1亿VIP精品文档

相关文档