数据挖掘第三章参照韩家伟的书.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与OLAP技术 数据挖掘:概念与技术 Jiawei Han and Micheline Kamber著 Monrgan Kaufmann Publishers Inc. 范明 孟小峰等译 机械工业出版社 第3章 数据仓库与OLAP技术 中文幻灯片制作:范明 第3章: 数据仓库与OLAP技术 什么是数据仓库? 多维数据模型 数据仓库的系统结构 数据仓库实现 从数据仓库到数据挖掘 什么是数据仓库 什么是数据仓库 不同的定义 是一个决策支持数据库, 它与组织的操作数据库分离地维护 数据仓库系统允许将各种应用系统集成在一起, 通过为统一的历史数据分析提供坚实的平台, 支持信息处理. 数据仓库是一种信息环境, 它将各种应用系统集成在一起, 提供了企业信息的完整概括, 为灵活的、交互的数据分析提供坚实的平台, 为决策提供支持. W. H. Inmon的定义: 数据仓库是 面向主题的 subject-oriented , 集成的, 时变的, 和非易失的数据集合, 支持管理决策过程 建立数据仓库 Data warehousing : 构造和使用数据仓库的过程 数据仓库的特征 面向主题的 subject-oriented 数据仓库围绕一些主题,如顾客、供应商、产品和销售组织 数据仓库关注决策者的数据建模与分析, 而不是集中于组织机构的日常操作和事务处理. 数据仓库排除对于决策无用的数据, 提供特定主题的简明视图 集成的 integrated 通常, 构造数据仓库是将多个异种数据源, 如关系数据库、一般文件和联机事务处理记录, 集成在一起 使用数据清理和数据集成技术, 确保命名约定、编关键字结构、属性度量等的一致性 当数据装入数据仓库时, 数据将被转换 数据仓库的特征 续 时变的 time-variant 数据存储从历史的角度 例如过去5-10年 提供信息. 操作数据库数据: 当前值数据 数据仓库中的关键结构, 隐式或显式地包含时间元素 非易失的 nonvolatile 数据仓库总是物理地分离存放数据; 这些数据源于操作环境下的应用数据 由于这种分离, 数据仓库不需要事务处理、恢复和并发控制机制.通常, 它只需要两种数据访问操作: 数据的初始化装入和数据访问 如何使用数据仓库中的信息 数据仓库用于商务决策活动, 包括 增加顾客关注 包括分析顾客购买模式, 如喜爱买什么、购买时间、预算周期、消费习惯 根据季度、年和地区的营销情况比较, 重新配置产品和管理产品的投资, 调整生产策略 分析运营情况和查找利润源 管理顾客关系、进行环境调整、管理公司资产开销 数据仓库和异种数据库 传统的异种数据库集成 在异种数据库上建立一个包装程序 wrappers 或中介程序 mediators 查询驱动的方法 当查询提交给一个站点时, 使用元数据词典将查询转换成所涉及的异种站点上的相应查询, 查询的结果被集成为一个全局回答的集合 复杂的信息过滤, 对资源的竞争 数据仓库 更新驱动的, 高性能 来自异种信息源的数据被预先集成并存储在数据仓库中, 直接用于查询和分析 数据仓库 vs. 操作数据库 OLTP on-line transaction processing, 联机事务处理 传统关系 DBMS的主要任务 日常事务处理: 购买, 库存, 银行, 制造, 工资单, 注册, 记帐等. OLAP on-line analytical processing, 联机分析处理 数据仓库系统的主要任务 数据分析和决策制定 数据仓库 vs. 操作数据库 续 不同的特点 OLTP vs. OLAP : 用户和系统的面向性: 顾客 vs. 市场 OLTP是面向顾客的, 用于办事员、客户、和信息技术专业人员的事务和查询处理 OLAP是面向市场的, 用于知识工人 包括经理、主管、和分析人员 的数据分析 数据内容: 当前的, 细节的 vs. 历史的, 合并的 OLTP系统管理当前数据 这种数据太琐碎, 很难用于决策 OLAP系统管理大量历史数据, 提供汇总和聚集机制, 并在不同的粒度级别上存储和管理信息 这些特点使得数据更容易用于决策 数据仓库 vs. 操作数据库 续 数据库设计: ER + 应用 vs. 星形 + 主题 OLTP系统采用ER数据模型和面向应用的数据库设计 OLAP系统通常采用星形或雪花模型和面向主题的数据库设计 视图: 当前的, 局部的 vs. 进化的, 集成的 OLTP系统主要关注一个企业或部门内部的当前数据, 而不涉及历史数据或不同组织的数据 OLAP系统常常跨越数据库模式的多个版本. OLAP系统还处理来自不同组织的信息, 集成多个数据存储的信息 由于数据量巨大, OL

文档评论(0)

报告论文库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档