- 14
- 0
- 约1.22千字
- 约 21页
- 2017-06-12 发布于河南
- 举报
数据挖掘 EL演示 数据仓库
;ETL(Extraction,Transformation,Loading)即数据的抽取、转换与装载。ETL工具可将业务系统中分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库,成为联机分析处理、数据挖掘的基础,为辅助决策、分析、查询提供统一的数据依据。
;; 将原始数据从业务系统中读取出来的过程。
确定如何抽取源数据并非易事,需要对业务深刻了解,因此需要慎重规划:
在数据抽取前要充分理解数据源和数据定义
规划需要的数据源和数据定义
制定可操作的数据源
制定增量抽取的方案
; 转换主要是针对数据仓库建立的模型,通过一系列的转换来实现数据从业务模型到分析模型。
数据转换是真正将源数据变为目标数据的关键环节,包括以下内容:
数据格式转换
数据类型转换
数据汇总计算
数据拼接
……; 清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的记录先剔除出来,然后根据实际情况调整相应的清洗操作。
主要的数据质量问题有以下几种:
缺失数据
错误数据
数据重复
数据冲突
……
; 数据加载主要是将经过转换和清洗的数据加载到数据仓库中,这时的数据已经是基于分析模型组织起来的。
数据加载通常分为以下几种方式
初始加载。一次对整个数据仓库进行装载。
增量加载。保证数据仓库与源数据变化的同期性。(触发
您可能关注的文档
- 数学建模目标划方法.ppt
- 数学建模竞赛备资料.ppt
- 数学建模评价型.ppt
- 数学建模队员拔及组队问题研究.doc
- 数学必修1复纲要.doc
- 数学模型建模法论一.ppt
- 数学物理方程问题讲稿2014.ppt
- 数学竞赛工程题.ppt
- 数学精英选拔赛.ppt
- 数学白本六年.doc
- ORing工业网络解决方案.pdf
- 如何使用XMind与制作3:4比例美观图片.pdf
- 重症医学相关精神障碍药物合理使用专家共识解读.pptx
- 重症医学专业医疗质量控制指标(2024年版).pptx
- 重症医学专业医疗质量控制指标(2024年版)解读.pptx
- “鸭力全消 喜乐出圈”商场购物中心五一玩梗出圈季活动方案.pptx
- 商场购物中心大悦城(潮π广场)打造计划美陈升级改造方案.pptx
- MUSIC FESTIVAL音乐节线上整合营销传播运营策划方案.pptx
- 26HR-162:企业招聘分析:招聘配置工作总结分析报告.pdf
- 白酒国窖1573冰·JOYS夏季交响音乐品鉴私宴会营销活动方案.pptx
原创力文档

文档评论(0)