第12章第12章数据仓库技术.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
12.4 数据仓库系统的体系结构 12.4.1 数据仓库的后台工具 数据仓库的后台工具,包括: 数据抽取(Extracting) 清洗(Cleaning) 转换(Transformation) 装载(Load) 维护(Maintain) 第二十九页,共四十六页。 12.4 数据仓库系统的体系结构 由于数据仓库的数据来源于多种不同的数据源。它们可能是不同平台上异构数据库中的数据,也可能是外部独立的数据文件、Web页面、市场调查报告等等。 因此,这些数据常常是不一致的。例如: (1)同一字段在不同应用中具有不同数据类型; (2)同一字段在不同应用中具有不同的名字; (3)同名字段,不同含义。 第三十页,共四十六页。 12.4 数据仓库系统的体系结构 为了将这些不一致的分散的数据集成起来,必须对它们进行转换后才能供分析之用。数据抽取、清洗、转换工具就是用来完成这些工作。 数据抽取工具主要通过网关或标准接口把原来OLTP系统中的数据按照数据仓库的数据组织进行抽取。 数据清洗主要是对源数据之间的不一致性进行专门处理,并且要去除与分析无关的数据或不利于分析处理的躁声数据。 第三十一页,共四十六页。 12.4 数据仓库系统的体系结构 数据经过抽取、清洗和转换后,就可以装载到数据仓库中,这由数据仓库的装载工具来实现。 装载工具要解决的另一个问题是对大数据量的处理。数据仓库中的数据量比OLTP系统要大得多,进行装载需要很长的时间。目前通常的解决方式有两种:并行装载和增量装载。并行装载是把任务进行分解,充分利用CPU资源。增量装载就是只装载修改的元组以减少需要处理的数据量。 第三十二页,共四十六页。 12.4 数据仓库系统的体系结构 数据仓库维护的主要内容是,周期性把操作型环境中的新数据定期加入(pump)数据仓库中、刷新数据仓库的当前细节数据、将过时的数据转化成历史数据,清除不再使用的数据,调整粒度级别等。 第三十三页,共四十六页。 * * * 第12章 数据仓库技术 12.1 从数据库到数据仓库 12.2 数据仓库基本概念 12.3 数据仓库中的数据组织 12.4 数据仓库系统的体系结构 12.5 企业的体系化数据环境 12.6创建数据仓库 12.7 小结 第一页,共四十六页。 12.1 从数据库到数据仓库 数据库管理系统作为数据管理的最新手段,成功地用于事务处理领域尽管数据库在事务处理方面的应用获得了巨大的成功。但它对分析处理的支持一直不能令人满意,尤其是当以事务处理为主的OLTP应用与以分析处理为主的DSS应用共存于同一个数据库管理系统中时,这两种类型的处理发生了明显的冲突。 第二页,共四十六页。 12.1 从数据库到数据仓库 事务处理环境不适宜DSS应用的原因概括起来主要有以下四个方面: (1)事务处理和分析处理的性能特性不同 (2)数据集成问题 (3)历史数据问题 (4)数据的综合问题 以上这些问题表明在事务型环境中直接构建分析型应用是一种失败的尝试。数据仓库本质上是对这些存在问题的回答。 第三页,共四十六页。 12.2 数据仓库基本概念 分析处理和事务处理具有极不相同的性质,因而两者对数据也有着不同的要求。 数据仓库概念的创始人W.H. Inmon在其《Building Data Warehouse》一书中,列出了操作型数据与分析型数据之间的区别,如表12.1所示。 第四页,共四十六页。 12.2 数据仓库基本概念 操作型数据 分析型数据 细节的 综合的,或提炼的 在存取瞬间是准确的 代表过去的数据 可更新 不更新 操作需求事先可知道 操作需求事先不知道 生命周期符合SDLC 完全不同的生命周期 对性能要求高 对性能要求宽松

文档评论(0)

虾虾教育 + 关注
官方认证
内容提供者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档