数据挖掘 ETL演示 数据仓库.ppt

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 ETL演示 数据仓库

ETL(Extraction,Transformation,Loading)即数据的抽取、转换与装载。ETL工具可将业务系统中分布的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库,成为联机分析处理、数据挖掘的基础,为辅助决策、分析、查询提供统一的数据依据。 将原始数据从业务系统中读取出来的过程。 确定如何抽取源数据并非易事,需要对业务深刻了解,因此需要慎重规划: 在数据抽取前要充分理解数据源和数据定义 规划需要的数据源和数据定义 制定可操作的数据源 制定增量抽取的方案 转换主要是针对数据仓库建立的模型,通过一系列的转换来实现数据从业务模型到分析模型。 数据转换是真正将源数据变为目标数据的关键环节,包括以下内容: 数据格式转换 数据类型转换 数据汇总计算 数据拼接 …… 清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的记录先剔除出来,然后根据实际情况调整相应的清洗操作。 主要的数据质量问题有以下几种: 缺失数据 错误数据 数据重复 数据冲突 …… 数据加载主要是将经过转换和清洗的数据加载到数据仓库中,这时的数据已经是基于分析模型组织起来的。 数据加载通常分为以下几种方式 初始加载。一次对整个数据仓库进行装载。 增量加载。保证数据仓库与源数据变化的同期性。(触发器、时间戳、日志表、全表删除插入、全表比对) 完全刷新。周期性地重写整个数据仓库,也可能只对一部分数据进行刷新。 姓 名 单价 销量 张 三 .55 2 李 四 1.1 3 … 员工编号 姓名 1 张三 2 李四 … 姓名 单价 销量 张三 .55 2 李四 1.1 3 … 姓名 销售额 张三 1.1 李四 3.3 … 员工编号 销售额 1 1.1 2 3.3 … 导入 合并 计算 查找 S1 ODS Extract DW Load S2 S3 缓冲层 DM OLTP报表、查询 OLAP Data Mining 部门OLAP MDD 增量 历史 数据质量管理 元数据管理 报表平台(OLAP \ OLTP \ Portal...) OLTP:联机事务处理,即传统的关系型数据库的主要应用。 ODS:Operational Data Store,在业务系统和数据仓库之间形成一个“隔离层” MDD:由模型驱动的开发方式 在用友BQ中, ETL就是通过查询定义数据仓库目标表,利用智能查询的强大功能作数据抽取(Extraction)(从不同数据源取数、跨数据源取数)、生成计算字段(自定义计算项)、转换类型、和数据清洗(Transformation),并通过数据泵出加载到数据仓库(Load)。简单的数据清洗(排除非法数据),可在查询条件中定义,复杂的可通过查询的内置VB脚本去做。 用友BQ 通过查询对象,从不同数据源取数、跨数据源取数取出自己所需的字段。数据清洗在查询中实现,如生成计算字段(自定义计算项)、转换类型、和数据清洗。复杂的清洗可通过查询的内置VB脚本去实现。 一个能生成高性能数据集成解决方案(包括数据仓库中数据的提取、转换和加载(ETL))的平台。 其集成的含义主要就是指把ETL集成在一起,通过一个统一的环境向用户提供了数据转换服务(DTS)所能提供的所有功能,并且大大减少了用户花在编写程序和脚本上的精力和时间。 可视化环境 使管理功能和数据加载自动化 SQL Server 集成服务(SSIS) DEMO:将TXT中历史货币数据,写入数据仓库的FactCurrencyRate 事实数据表 源数据是一组包含在平面文件 SampleCurrencyData.txt 中的历史货币数据。源数据有以下四列:货币的平均汇率、货币键、日期键和当天汇率。 例: 1 USD 7/1/2001 0:00 0 1 USD 7/2/2001 0:00 1.000900811 1 USD 7/3/2001 0:00 0 1 USD 7/4/2001 0:00 1 ....... 目标表: 步骤 1 读取源数据,设置列名,设置数据类型。 AverageRate CurrencyID CurrencyDate EndOfDayRate 1 USD 7/1/2001 0:00 01 USD 7/2/2001 0:00 1.000900811 1 USD 7/3/2001 0:00 01 USD 7/4/2001

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档