- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
DataWarehouseoverview
数据仓库管理的历史时期人工管理方式:这一时期是在20世纪50年代中期以前,这一阶段的计算机应用主要用于科学计算,外存只有纸带、磁带、卡片等,数据处理的方式根本上是批处理。这一时期数据管理的特点是:数据不保存;没有专用的数据管理软件,每个应用都必须自己完成存储结构、存取方法、输入输入输出等数据管理功能;一组数据对应一个应用,这使得程序之间可能有重复的数据。文件系统管理这一阶段在20世纪50年代后期至60年代中后期,计算机应用开始用于信息管理,由于数据存储、检索和维护等需求,使得相应的研究开展起来了,在硬件和软件方面都得到了开展,磁盘磁鼓出现,操作系统也产生。这一时期数据管理的特点主要是::数据保存,数据可以长期保存在磁盘上;有操作系统的文件管理系统,文件结构化,数据的物理结构和逻辑结构有了区别;有了存储文件后,数据可以不再仅仅属于某一个应用,而能进行一定程度的复用。但文件系统在数据管理方面存在缺陷,表现在数据冗余度大,数据和程序之间缺乏独立性,容易造成数据的不一致性。数据库系统〔60年代末开始〕
数据仓库的开展的动力业务需求驱动主要是详细的分析科学的经营市场活动的细化和实施等数据驱动数据量不断扩大没有数据仓库等相关技术很难全面了解企业工程驱动
数据仓库定义Inmon的定义:DataWarehouseisasubject-oriented,integrated,time-variant,andnonvolatilecollectionofdatainsupportofmanagement’sdecisionmakingprocess数据仓库的特点数据仓库的数据是面向主题的数据仓库的数据是集成的数据仓库的数据是与时间相关的数据仓库的数据是稳定的
简单的数据仓库架构
数据仓库实际应用例子
数据集成企业全面的经营数据OLTP分散在各个不同系统中〔事件独立〕银行:卡、储蓄、信贷、会计、中间业务等等系统BOSS+增值业务+财务集成数据建立关联事件关联〔业务之间是相互关联〕客户数据统一历史数据大量历史数据的保存问题中国建设银行一个中等规模的省产生每天的交易详细记录大约200M通常在业务系统中只保存当日数据历史数据查询困难
数据仓库数据处理流程数据格式检查源数据清洁、抽取、转换ODS数据抽取、转换装载数据到DW装载到OLAP报表展现业务系统数据/外部数据DW数据抽取、转换DW数据生成报表装载数据到ODS分析性查询
ETL简述
ETL定义ETL:Extract-Transform-Load数据抽取〔Extract〕、转换〔Transform〕、装载〔Load〕的过程。ETL是BI/DW的核心和灵魂,按照统一的规那么集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤
ETL应用过程数据抽取抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取的定义。(数据源和文件等多种形式)数据传输数据传输是通过网络负责把远程的数据到本地目录下。
ETL应用过程数据的清洗和转换转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,清楚的监控数据转换的状态。数据转换是真正将源数据变为目标数据的关键环节,它包括数据格式转,换数据类型转换、数据汇总计算、数据拼接等等。清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规那么等问题,允许通过试抽取,将有问题的纪录先剔除出来,根据实际情况调整相应的清洗操作。
ETL应用过程数据加载入库数据加载主要是将经过转换和清洗的数据加载到数据仓库里面,即入库,可以通过数据文件直接装载或直连数据库的方式来进行数据装载,可以充分表达高效性ETL调度ETL的调度控制方式有两种:自动方式由系统每天定时或准实时启动后台程序,自动完成数据仓库ETL处理流程。手动方式用户可以通过前台监控平台,对单个目标或批量目标进行手工调度。
ETL应用过程监控主要是监控ETL的整个过程,通过扫描ETL各模块的日志中的关键值,如记录时间等信息与当前的状态作比较,如果超过某一个值,那么认为该模块运行可能出现问提,应告警。
ETL工具框架
OLAP简述
OLAPOLTP(on-linetransactio
您可能关注的文档
- 新PEP4四年级下册Unit3-Weather--Let's-spell-2.ppt
- 最新中国人寿SWOT分析.pptx
- 新概念英语第二册-Lesson29.ppt
- 智慧养老解决方案.ppt
- 铝塑泡罩包装机验证方案.doc
- 钢柱柱脚灌浆施工方案.doc
- 最新北师大小学数学四年级下册优化烙饼.ppt
- 文字设计的原则与要求.ppt
- 最新部编版一年级语文上册第四单元复习课件.ppt
- 无人机合法运营-石风雹.ppt
- 《GB/T 25936.4-2024橡胶塑料粉碎机械 第4部分:团粒机安全要求》.pdf
- 中国国家标准 GB/T 18216.11-2024交流1 000 V和直流1 500 V及以下低压配电系统电气安全 防护措施的试验、测量或监控设备 第11部分:TT、TN和IT系统中剩余电流监视器(RCM)的有效性.pdf
- GB/T 21551.1-2024家用和类似用途电器的抗菌、除菌、净化功能 第1部分:通则.pdf
- GB/T 21551.5-2024家用和类似用途电器的抗菌、除菌、净化功能 第5部分:洗衣机的特殊要求.pdf
- 《GB/T 21551.5-2024家用和类似用途电器的抗菌、除菌、净化功能 第5部分:洗衣机的特殊要求》.pdf
- 中国国家标准 GB/T 32151.31-2024温室气体排放核算与报告要求 第31部分:木材加工企业.pdf
- 中国国家标准 GB/T 21551.5-2024家用和类似用途电器的抗菌、除菌、净化功能 第5部分:洗衣机的特殊要求.pdf
- 中国国家标准 GB/T 18978.20-2024人-系统交互工效学 第20部分:无障碍设计的工效学方法.pdf
- 《GB/T 18978.20-2024人-系统交互工效学 第20部分:无障碍设计的工效学方法》.pdf
- GB/T 32151.31-2024温室气体排放核算与报告要求 第31部分:木材加工企业.pdf
文档评论(0)