- 1、本文档共65页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库的结构 早期细节级 当前细节级 轻度综合级 数据集市 高度综合级 元数据 操作型转换 奢崩革丹矛澳截扎乖匡邯嚏比功企浅仓俗震瘁搬览利荚总沼酥酚约茧醛泌第01讲A 数据仓库概述第01讲A 数据仓库概述 7、OLAP数据立方体的计算(物化) 1、数据立方体的个数 有产品(type)、城市(city)、日期(date)三个维,则: all year type city type year city date city type city type date 一般,若有n个维,则不同立方体的个数是: 澎奸永迸菱炎伺涧脆臭栅梦堪受啪出胳馅稍瘦捎逮挖矣址锁白市硷夸伺椰第01讲A 数据仓库概述第01讲A 数据仓库概述 实际维上有分层,如(年、季度、月、星期、日),所以实际的立方体个数是极大的。所以,实时计算的工作量极大,但全部事先计算,则存储量又极大。 所以,在OLAP中一般采用部分物化,即有选择的事先计算。 洒倔清猎吧骨障丸棘私莎咱导柬儿指她款过斩挟灾焦旗驰涝淘猛版徒累卡第01讲A 数据仓库概述第01讲A 数据仓库概述 三、数据挖掘 OLAP使用户能利用工具快速的查询数据。但不能解决哪些信息是有意义的,哪些是无意义的。 在OLAP使用中,一般是用户提出一个假设(模式),通过OLAP去验证假定或从返回的数据信息中总结出某种规律。有时返回的信息太多而无法处理。(比如在搜索引擎查“数据挖掘”返回许多页面,而有关的“数据开采”, “知识发现”又没有返回)。 二十年前查不到数据是因为数据太少,而今天数据查不到是因为数据太多。 漫铁戴睦匪梦估霍绦逃徘女闽行管谐晤忱袍吮川竟病惯吗趋玉痞伦碌场吃第01讲A 数据仓库概述第01讲A 数据仓库概述 若把大量的数据比做藏有金子的山,OLAP提供了在山中各处迅速地观察工具,它能让你迅速的到达你想到的地方。但不能告诉你是否此处有价值。如果山是巨大的,发现其中重要的有价值的位置本身是非常耗时的。 杉腿国姜性朗被澄睡睬蝉货氦欲短倡组辱红列耐绰莲安名霹粥苗纂冻衬樟第01讲A 数据仓库概述第01讲A 数据仓库概述 数据挖掘(Data mining ) 从大量的数据集合中的数据中提取有用的信息 ( 不平常的 , 暗藏的, 先前未知的和很可能有用的 )。 数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。 戮练示阁淘宰嚣炉扁鲁窄毒俭问啥连喷荧书牟无骨削枝尽赌枣览董针砰刮第01讲A 数据仓库概述第01讲A 数据仓库概述 数据挖掘与数据仓库关系 数据仓库的目标是提供OLAP及数据挖掘功能。 数据挖掘的数据源不一定是数据仓库 数据仓库允许你建立“数据山”,而数据挖掘允许你在山 中筛选数据,得到对你有用的信息 搓堡猜霉痘梁早牌糟曹播胳皆忠彦牲梨箕遇住镊篙划狼且绎藤哩欠绦葵朗第01讲A 数据仓库概述第01讲A 数据仓库概述 数据挖掘的过程 Data Cleaning 数据整理 Data Integration数据集成 数据库 数据 仓库 相关任务数据 挑选 数据挖掘 模式评估Pattern Evaluation 赏冶略摹苔串颜某翟站译豁即垒肝日蔫钻桓证榜窜眉耿绦狂蔼丘筏夜刁蟹第01讲A 数据仓库概述第01讲A 数据仓库概述 数据仓库的投资回报率(ROI) 96年,IDC(Intenational Data Corporation)做了关于数据仓库经济价值的研究。报告指出:对IT业的投资还未产生预期的利润。94年全世界投入了4640亿美元用于开发新技术。企业、公司的高级管理人员开始怀疑投资IT业到底有没有利益? ROI底的原因是:传统的计算技术只重视如何自动完成职员的日常工作、提高已有过程的效率和收集数据。不幸的是虽然收集了大量数据,但直到近年,这些数据的价值才被发现和利用。 随着数据仓库的到来,公司可以把收集到的信息加以利用以获得较大的投资回报率。IDC的报告认为实现数据仓库有较大经济回报,原因是: 琳扫漆泽泅弧塑饥制遭磋牌樊筛库援掺幅拾沥刃韩兄墩恬绘知滇胺尤策悯第01讲A 数据仓库概述第01讲A 数据仓库概述 能应用到商业过程中,对商业过程做完整的经济分析。这时的机构能在了解整个系统的基础上,而不是不完整的数据上做估计和决策。 能自动创建一个完整的企业范围内的信息仓储,而不是开发一些单独的决策支持系统和相应的基础设施。 开发、部署和维护大型信息数据存储花费的硬件、软件和存储代价继续下降。 数据
文档评论(0)