- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Data Warehouse 数据仓库概念、设计及应用报告人:曹顺良 2001年11月12日
提纲1.为什么要建立数据仓库2. 数据仓库的概念及特性3. 数据仓库的结构4. 数据仓库的设计5. 数据仓库的开发过程6. 数据仓库的典型应用
事务处理环境不适宜DSS应用的原因 事务处理和分析处理的性能特性不同 操作型处理对数据的存取操作频率高而每次操作处理的时间短; 在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。数据集成问题数据动态集成问题历史数据问题 数据的综合问题
抽取程序用抽取程序能将数据从高性能联机事务处理方式中转移出来,在需要总体分析数据时就与联机事务处理性能不发生冲突。用抽取程序能将数据从联机事务处理范围内移出时,数据的控制方式就发生了转变。
蜘蛛网问题数据缺乏可信性数据无时基数据算法上的差异抽取的多层次外部数据问题无起始的公共数据源生产率低根据全部数据生成企业报表定位数据需要浏览大量文件抽取程序很多,并且每个都是定制的,不得不克服很多技术上的障碍。数据转化为信息的不可行性数据没有集成化缺乏将数据转化为信息所需的历史数据
体系结构设计环境的层次数据操作层只保存原始数据并且效劳于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存在;数据的部门层几乎只存放导出数据;在数据个体层中完成大多数启发式分析操作层原子/数据仓库层部门层个体层
数据仓库的概念 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。 [William H.Inmon] 与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。
数据仓库的特性 面向主题典型的主题领域:客户;产品;交易;帐目集成的数据提取、净化、转换、装载非易失的数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新随时间的变化性数据仓库中的时间期限要远远长于操作型系统中的时间期限〔5~10年〕;数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库的键码结构总是包含某时间元素。
数据仓库的结构早期细节级当前细节级轻度综合级数据集市高度综合级元数据操作型转换
数据仓库设计中的几个重要概念 ETLETL〔Extract/Transformation/Load〕—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。元数据关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规那么等相关的关键数据。同时元数据还包含关于数据含义的商业信息。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。分割结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。
典型的元数据包括:数据仓库表的结构数据仓库表的属性数据仓库的源数据〔记录系统〕从记录系统到数据仓库的映射数据模型的规格说明抽取日志访问数据的公用例行程序
数据仓库设计中的几个重要概念 (续〕Data Mart数据集市 -- 小型的,面向部门或工作组级数据仓库。Operation Data Store操作数据存储 — ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个根本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。data model数据模型 -- 〔1〕逻辑数据结构,包括由DBMS为有效进行数据库处理提供的操作和约束;〔2〕用于表示数据的系统〔例如,ERD或关系型模型〕。 artifact 人工关系 --在DSS环境中用于表示参照完整性的一种设计技术。
企业数据模型到数据仓库数据模型的转换除去纯粹用于操作型环境的数据在企业键码结构中增加时间元素增加导出数据创立人工关系
数据模型的标准化/反标准化为了减少程序在表中的跳转、节省I/O,需将多个相关的表合并;引入冗余数据;当访问概率有很大悬殊时,要对数据做进一步别离;在物理数据库的设计中引入导出数据可以减少I/O;建立所谓的“创造的〞索引或创造的简要记录〔如卷中的前十名顾客是——〕
数据仓库体系结构OLTP数据源数据仓库数据集市?数据采集及整合数据的映射规则、模型。。。 (元数据管理)数据仓库项目流程管理及系统性能管理和监控?数据展现及决策生产财务结算外部航线分析总量分析市场分析InfoPump数据分析、DM终端用户终端用户
从操作型的现存系统到数据仓库中数据转换工作的难点现有系统缺乏数
您可能关注的文档
最近下载
- 2022年国家公务员考试行测试题(有答案)(地市级).pdf VIP
- CISA考试练习习题库(2025年第1部分).pdf VIP
- 基于核心素养的小学语文作业设计策略分析.docx VIP
- T_CGSS 014—2020_老年人跌倒风险综合评估规范.pdf VIP
- 选区激光熔化技术下成形件表面质量及残余应力预测方法.pdf VIP
- 机电设备安装应急处理预案.docx VIP
- 2025入党积极分子发展对象考试题库(含答案).docx VIP
- 个人简历——【标准模板】.doc VIP
- [富士康 索尼设备校正]SI-F209 Operation Manual (中文版).pdf
- 小学语文作业设计的有效策略.doc VIP
文档评论(0)