第01讲A数据仓库概述.ppt

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库的结构 早期细节级 当前细节级 轻度综合级 数据集市 高度综合级 元数据 操作型转换 7、OLAP数据立方体的计算(物化) 1、数据立方体的个数 有产品(type)、城市(city)、日期(date)三个维,则: all year type city type year city date city type city type date 一般,若有n个维,则不同立方体的个数是: 实际维上有分层,如(年、季度、月、星期、日),所以实际的立方体个数是极大的。所以,实时计算的工作量极大,但全部事先计算,则存储量又极大。 所以,在OLAP中一般采用部分物化,即有选择的事先计算。 三、数据挖掘 OLAP使用户能利用工具快速的查询数据。但不能解决哪些信息是有意义的,哪些是无意义的。 在OLAP使用中,一般是用户提出一个假设(模式),通过OLAP去验证假定或从返回的数据信息中总结出某种规律。有时返回的信息太多而无法处理。(比如在搜索引擎查“数据挖掘”返回许多页面,而有关的“数据开采”, “知识发现”又没有返回)。 二十年前查不到数据是因为数据太少,而今天数据查不到是因为数据太多。 若把大量的数据比做藏有金子的山,OLAP提供了在山中各处迅速地观察工具,它能让你迅速的到达你想到的地方。但不能告诉你是否此处有价值。如果山是巨大的,发现其中重要的有价值的位置本身是非常耗时的。 数据挖掘(Data mining ) 从大量的数据集合中的数据中提取有用的信息 ( 不平常的 , 暗藏的, 先前未知的和很可能有用的 )。 数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。 数据挖掘与数据仓库关系 数据仓库的目标是提供OLAP及数据挖掘功能。 数据挖掘的数据源不一定是数据仓库 数据仓库允许你建立“数据山”,而数据挖掘允许你在山 中筛选数据,得到对你有用的信息 数据挖掘的过程 Data Cleaning 数据整理 Data Integration数据集成 数据库 数据 仓库 相关任务数据 挑选 数据挖掘 模式评估Pattern Evaluation 数据仓库的投资回报率(ROI) 96年,IDC(Intenational Data Corporation)做了关于数据仓库经济价值的研究。报告指出:对IT业的投资还未产生预期的利润。94年全世界投入了4640亿美元用于开发新技术。企业、公司的高级管理人员开始怀疑投资IT业到底有没有利益? ROI底的原因是:传统的计算技术只重视如何自动完成职员的日常工作、提高已有过程的效率和收集数据。不幸的是虽然收集了大量数据,但直到近年,这些数据的价值才被发现和利用。 随着数据仓库的到来,公司可以把收集到的信息加以利用以获得较大的投资回报率。IDC的报告认为实现数据仓库有较大经济回报,原因是: 能应用到商业过程中,对商业过程做完整的经济分析。这时的机构能在了解整个系统的基础上,而不是不完整的数据上做估计和决策。 能自动创建一个完整的企业范围内的信息仓储,而不是开发一些单独的决策支持系统和相应的基础设施。 开发、部署和维护大型信息数据存储花费的硬件、软件和存储代价继续下降。 数据仓库可以轻易拓展到能产生巨大利益的战略决策过程中。 能同时从宏观和微观上了解和管理企业。这可以节省无数的手工劳动,避免由不完全或不正确数据得出的假设导致的错误——这种错误有时是致命的。 IDC的研究结论认为:数据挖掘平均三年的ROI能达到401%,在被调查的企业中,有超过90%的企业的ROI超过了40%,50%的企业的ROI超过了160%,25%的企业的ROI超过了600% 四、数据仓库和数据挖掘产品 单点产品 仅局限于数据仓库方案实施中的一部分或某一特定功能,主要是作为第三方产品或者和其它公司的产品结合起来进行使用。 Business Objects 主要工具:   BusinessObjects 是集成查询,报表和分析功能的工具;   Webintelligence 是世界上第一个通过Web进行查询、报表和分析的决策支持工具;   Businessquery 是第一个可以在Microsoft Excel中集成企业公共数据源中数据的工具;   Businessminer 是面向主流商业用户的数据挖掘工具,可以实现深入的分析用以发掘深层次的数据之间的关系。 应用提示:

文档评论(0)

allap + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档