数据挖掘技术-第2章数据仓库及数据挖掘技术概述.pptVIP

  • 2
  • 0
  • 约1.99万字
  • 约 93页
  • 2016-08-23 发布于江苏
  • 举报

数据挖掘技术-第2章数据仓库及数据挖掘技术概述.ppt

数据仓库与数据挖掘概述 杨建林 苏新宁 邓三鸿 数据仓库概念 基本概念 对数据仓库的一些误解 基本概念 数据仓库 外部数据源 数据抽取 抽取存储区 数据清洗 数据转换 元数据 数据集市(Data Mart) 基本概念—数据仓库 外部数据源 构建一个数据仓库,必然要有充足的数据来源,从外部为数据仓库系统提供进行分析的“原材料”——数据,这些数据来源称为数据仓库的外部数据源。 外部数据源并不局限于传统数据库,可以是非结构化的信息,如文本文件,也可以是网络资源。 要保证数据仓库进行的分析能得出正确的、有价值的结论,就必须保证外部数据源的完整、正确。 外部数据源 以证券行业为例,在建立数据仓库,分析个股与股市大盘变动的关联关系时,除了必须将证券交易数据库(基于RDBMS系统)、交易所发布的行情库(DBF数据库)作为外部数据源之外,相关个股的重要文档资料,如上市公司年报(文本文件)等,也必须作为外部数据源,以便对个股的行情走势进行深入的分析,揭示内在原因。 数据抽取 外部数据源所提供的数据并不都是有用的,有些数据对决策并不能提供支持 外部数据源中数据冗余的现象也很普遍。 在外部数据源中,只有那些与主题相关的内容才是必需的、有使用价值的。 因此,必须以主题的需求为依据,对数据源的内容进行有目的的选择,这一过程被称为“数据抽取”。 数据抽取 数据是否有抽取价值,取决于其与

文档评论(0)

1亿VIP精品文档

相关文档