第七章1数据挖掘与数据仓库-(精选·公开·课件).ppt

第七章1数据挖掘与数据仓库-(精选·公开·课件).ppt

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据库系统原理 第二部分 第七章 数据挖掘与数据仓库 7.1 数据仓库概述 7.2 数据挖掘技术 7.3 WEB数据挖掘 7.1 数据仓库概述 一、什么是数据仓库 二、DBMS与DWMS 三、数据仓库的系统结构 四、数据仓库的工作过程 不同层次的信息处理需求 事务处理需求 不同的事务处理子系统 采购子系统:订单、订单细则、供应商 销售子系统:顾客、销售 库存子系统:出库领料单、进料入库单、库存台帐 人事子系统:员工、部门 各种事务处理需求 一笔订购、一笔销售、一次进料、一次出料 要求 强调多用户并发环境,数据的一致性、完整性 不同层次的信息处理需求 分析处理需求 今年销售量下降的因素(时间、地区、商品、销售部门) 某种商品今年的销售情况与以往相比,有怎样的变化?每年的第一季度商品销售在各类商品上的分布情况怎样? 要求 多个子系统中的数据(数据集成) 历史数据 汇总、综合的数据 从数据库到数据仓库 事务处理与分析处理的性能特性不同 事务处理环境 数据存取操作频率高 每次操作处理的时间短 占用系统资源少 系统可以允许多个用户按分时方式使用资源,保持较短的响应时间 分析处理环境 运行时间长 消耗大量系统资源 事务与分析应用不宜放在同一中环境中 从数据库到数据仓库 数据集成问题 事务处理 目的是使业务自动化 只关注与本部门业务相关的当前数据 事务处理应用的分散:企业内部各事务处理应用间相互独立 DSS需要集成的数据 (内部各部门数据、外部数据、竞争对手数据) DSS需要对分散在各个事务处理应用中的相关数据进行集成,以向分析人员提供统一的数据视图 从数据库到数据仓库 数据动态集成问题 每次分析都进行数据集成的开销太大 静态集成 开始对所需数据进行集成,以后就一直以这部分数据作为分析的基础,不再与数据源发生联系 如果数据源发生了变化,这些变化不能反映到集成数据中,导致决策者使用的是过时的数据 动态集成 集成数据必须以一定的周期进行刷新 事务处理系统不具备动态集成的能力 数据仓库的定义 一、什么是数据仓库 数据仓库技术所要研究和解决的问题就是从OLTP系统、异构分散的外部数据源、脱机的历史业务数据中获取数据,处理后为数据分析和管理决策提供应用服务 。 数据仓库就是面向主题的、集成的、不可更新的(稳定性)随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。 二、 DBMS与DWMS OLTP主要用来完成基础业务数据的增、删、改等操作 ,对响应时间要求比较高,强调的是密集数据更新处理的性能和系统的可靠性及效率 OLAP应用是对用户当前及历史数据进行分析、辅助领导决策,主要通过多维数据的查询、旋转、钻取和切片等关键技术对数据进行分析和报表。 三、数据仓库的系统结构与相关问题 四、数据仓库的工作过程 1.数据的抽取 2.数据的存储和管理 3.数据的展现等 1.数据的抽取 数据的抽取是数据进入仓库的入口。 由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。 数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。 在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。 2.数据的存储和管理 数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。 数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。 在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。 目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。 3.数据的展现 在数据展现方面主要的方式有: 查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询; 报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表; 可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系; 统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析; 挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。 7.2 数据挖掘技术 一、问题的提出 二、什么是数据挖掘 三、数据挖掘的环境 四、数据挖掘的主要步骤 五、数据挖掘的主要任务 六、数据挖掘的主要方法 七、数据挖掘的主要应用 八、数据挖掘的主要工具 一、问题的提出 一方面规模庞大、纷繁复杂的数据体系让使用者漫无头绪、无从下手; 另一方面在这些大量数据的背后却隐藏着很多具有决策意义的有价值的信息。 如何发现这些有用的

文档评论(0)

夏天 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档