7数据仓库和数据挖掘综述.ppt

  1. 1、本文档共143页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
7数据仓库和数据挖掘综述.ppt

数据仓库与数据挖掘综述 概念、体系结构、趋势、应用 提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目) 数据仓库概念 基本概念 对数据仓库的一些误解 基本概念—数据仓库 基本概念—数据仓库特征 [Inmon,1996] 面向主题 一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;…) 典型的主题领域:客户;产品;交易;帐目 主题领域以一组相关的表来具体实现 相关的表通过公共的键码联系起来(如:顾客标识号Customer ID) 每个键码都有时间元素(从日期到日期;每月累积;单独日期…) 主题内数据可以存储在不同介质上(综合级,细节级,多粒度) 集成 数据提取、净化、转换、装载 稳定性 批处理增加,仓库已经存在的数据不会改变 随时间而变化(时间维) 管理决策支持 基本概念—Data Mart, ODS Data Mart 数据集市 -- 小型的,面向部门或工作组级数据仓库。 Operation Data Store 操作数据存储 — ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。 基本概念—ETL, 元数据,粒度,分割 ETL ETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。Microsoft DTS; IBM Visual Warehouse etc. 元数据 关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。 粒度 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。 分割 数据分散到各自的物理单元中去,它们能独立地处理。 对数据仓库的一些误解 数据仓库与OLAP 星型数据模型 多维分析 数据仓库不是一个虚拟的概念 数据仓库与范式理论 需要非范式化处理 提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目) 数据仓库体系结构及组件 体系结构 ETL工具 元数据库(Repository)及元数据管理 数据访问和分析工具 体系结构 [Pieter ,1998] 带ODS的体系结构 现实环境—异质性[Douglas Hackney ,2001] 联合型数据仓库/数据集市体系结构 闭环的联合型BI体系结构 数据仓库的焦点问题-数据的获得、存储和使用 ETL工具 去掉操作型数据库中的不需要的数据 统一转换数据的名称和定义 计算汇总数据和派生数据 估计遗失数据的缺省值 调节源数据的定义变化 ETL工具体系结构 元数据库及元数据管理 元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-[Alex Berson etc, 1999] 技术元数据 包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括: 数据源信息 转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法) 目标数据的仓库对象和数据结构定义 数据清洗和数据增加的规则 数据映射操作 访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等 元数据库及元数据管理 ? 商业元数据 给用户易于理解的信息,包括: 主题区和信息对象类型,包括查询、报表、图像、音频、视频等 Internet主页 支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等 数据仓库操作型信息 例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法 元数据库及元数据管理 元数据库(metadata repository)和工具 — [Martin Stardt,2000] 数据访问和分析工具 报表 OLAP 数据挖掘 提纲 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目) 数据仓库设计 自上而下(Top-Down) 自底而上(Bottom Up) 混合的方法 数据仓库建模 Top-down Approach Build Enterprise data warehouse Common central data model Data re-engineering performed

文档评论(0)

克拉钻 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档