第7章数据资源处理技术.pptVIP

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(1) 只包含决策信息 数据仓库特征: 数据仓库 销售市场数据库 销售额数据库 顾客数据库 竞争统计 按年和季度求平均值 顾客分类 (2) 多维的数据 数据仓库特征: 在实际决策过程中决策者往往需要从多个角度去考察一个或多个指标的值,并希望了解这些指标之间的关系。 比如: 对某一产品的销售,希望能从不同的角度去了解它的销售额、纯利润以及额外支出等指标,这些不同的角度包括不同时间(一年的各个季度或月份)、不同地区(个大省市)、不同的销售渠道(零售、代理商与批发),然后分析出其相互关系。 多维数据: 时间(月份) 销售渠道 1 2 3 批发 零售 地区 销售额 数据仓库系统体系结构: 一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分。 数据仓库体系结构图 ? ? ? ? ? 数据仓库DBMS ? MRDB ? MDDB 数据抽取 数据净化 数据载入 数据集市 报表,查询, EIS工具 OLAP 工具 数据挖掘工具 操纵平台 管理平台 (1)数据仓库(DW,Data Warehouse)由数据源、数据的存储与管理构成。 (2)联机分析处理技术(OLAP,On-Line Analytical Processing)是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求。OLAP也可以说是多维数据分析工具的集合。 (3)数据挖掘(DM,Data Mining)是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。数据挖掘的过程: 数据仓库 7.4.2 联机分析处理OLAP 联机分析处理首先是由关系数据库泰斗之一Codd在90年代初期提出的。当时,Codd认为联机事务处理(OLTP)已经不能满足终端用户对数据库查询的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询结果并不能满足决策者提出的要求。 OLAP的提出: 在实际决策过程中决策者往往需要从多个角度去考察一个或多个指标的值,并希望了解这些指标之间的关系。 比如: 对某一产品的销售,希望能从不同的角度去了解它的销售额、纯利润以及额外支出等指标,这些不同的角度包括不同时间(一年的各个季度或月份)、不同地区(个大省市)、不同的销售渠道(零售、代理商与批发),然后分析出其相互关系。 因此提出了多维数据库和多维分析的概念,即OLAP 多维数据: 时间(月份) 销售渠道 1 2 3 批发 零售 地区 销售额 多维分析的基本动作: (1)切片:某个维度上的取值选定一个固定值 地区 产品 时间 销售额 地区 产品 销售额 2001年10月 多维分析的基本动作: (3)旋转:对各个坐标的旋转变换可以得到不同视角的数据 地区 产品 产品 地区 (2)钻取: 多维视图中某个维度的取值可以分层 地区 产品 时间 销售额 OLAP的使用: 针对不同的用户提供不同的工具: (1)面向“What”型用户 比如“上个月西部地区几个省的家电销售量是多少?” (2)面向“What-if”型用户 比如“如果公司在西部地区增加三个销售代理,下个月西部地区几个省的家电销售量将会是多少?” 7.4 数据库的发展 7.4.3 数据挖掘 数据挖掘的主要方式: (1) 分类:从大量数据中找出不同类别对象的特征,从而对新加入的对象自动分类。 例如:银行按客户信用程度对客户分类,数据挖掘能找出每类客户的数据特征,快速判断一个新客户的信用类别 (2) 聚类:根据数据特征对数据对象进行自动归类 例如:超市可以将客户划分为互不相交的不同客户群,为不同的客户群推荐不同的目标商品。 数据挖掘:是从大量数据中自动发现隐藏的有用知识的过程; 发现的知识包括:变化趋势、异常情况、数据关联关系 计算机自动发现规律 (3)关联规则发现:从大量数据中找出有关联的数据,或者找出同时发现的事件。 例如:从超市的交易数据中发现那些商品可能被同时购买,从而寻找那些商品捆绑销售能够有足够多的受众。 (4)时序模式发现:寻找事件发生的时 序关系。 例如:分析超市数据,发现一个客户购买了一台电视机,几天后又买了摄像机,那么他在一个月内购买摄像机的概率为50% 思考题 现代企业对数据仓库的利用程度如何?表现在哪些方面,其趋势是什么?

文档评论(0)

wuyoujun92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档