第一章 数据挖掘 概念与技术.ppt

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘: 概念与技术 Jiawei Han Micheline Kamber 范明 孟小峰 等译 第一章 引 言 1.1 数据挖掘的激发及其重要性 随着全球信息化的发展,自动数据采集工具和成熟的数据库技术导致海量数据存储在数据库中,从海量数据中提取可信的、新颖的、有效的并能被人们理解的知识是非常重要的,所以数据挖掘引起了信息产业的极大关注。它涉及的领域非常广(企业管理、产品控制、市场分析、工程设计和科学研究等)。 2. 数据库技术的演化 数据产生和搜集 数据组织和管理:(包括数据存储和检索,数据库事务处理) 数据分析和理解:(涉及数据仓库和数据挖掘) 3. 数据坟墓 数据富裕,知识贫乏 大量数据背后隐藏着重要的知识 需要有效的数据挖掘工具支持 1.2 什么是数据挖掘? 数据挖掘定义:数据挖掘是从存放在数据库,数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。 知识发现过程的步骤为: 数据清理(消除噪声或不一致数据) 数据集成(多种数据源可以组合在一起) 数据选择(从数据库中检索与分析任务相关的数据) 数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作) 数据挖掘广义理解 对储存在数据库、数据仓库和其他各种信息源的海量数据信息中隐含的有趣信息的发现过程 数据挖掘是知识发现过程的一个步骤 数据挖掘系统的主要成分 数据库,数据仓库或其他信息库 数据库或数据仓库服务器 知识库 数据挖掘引擎 模式评估模块 图形用户界面 1.3 在何种数据上进行数据挖掘 1. 多种数据库和DM的关系 多种数据库是DM能够处理的对象。正因为有着这么庞大而实际有用的数据作为数据挖掘的物质基础,所以研究数据挖掘才有了现实的意义。 2. 关系数据库 DBMS--相互关联的数据集合和一套用于管理和访问数据的软件程序,建立数据库结构定义、数据存储、并发、共享、分布式访问、保证信息存储一致性和安全性的机制。数据库(Database)由一系列表(Table)组成 Table是一个行列二维表结构 数据挖掘在关系数据库中的作用 用SQL可以做什么? 上个季度卖出了什么商品 给我列出上月每个部门的总销售量 哪个销售员卖出的商品最多 Data Mining又能做什么? 预测新顾客的信誉风险 检查商品销售变差的原因 关系数据库是数据挖掘研究的主要数据形式 3. 数据仓库 从多个数据源搜集数据,存储于一个统一的数据模式下,通常驻留在单一站点。特点: 面向主题的,集成的,时变的,非易失的; 构建步骤如下: 数据清洗 数据转换 数据集成 数据载入 定期更新 数据仓库和数据集市 数据仓库(data warehouse) –面向企业,用于企业决策。 数据集市(data mart) –面向部门,只关心某一主题。 数据仓库OLAP分析 不同抽象层次的多维分析,可以切片、切块旋转等等 ,进行不同程度的汇总 OLTP与OLAP的关系级比较 OLTP面对操作人员和低层管理人员,OLAP面对的决策人员和高层管理人员。 4.事务数据库 存储事务信息的数据库,由一个文件组成,其中每个记录代表一个事务。 5.对象关系数据库 结合了对象数据库和关系数据库的特点 提供了能处理复杂对象的丰富的数据类型和查询语言 与关系数据库对比,不同之处是能处理复杂数据类型、类分层和对象继承 6.空间数据库 存储与空间相关的信息,包括地图、VLSI芯片、药物、卫星图象等 用途: 森林和生态环境计划 提供公共设施(电话、电缆、管道、污水排放)信息 data mining作用 回答某一区域的居民分布情况 分析气候、交通等因素对城市居民迁移的作用 7.时间数据库和时间序列数据库 两者都存储与时间有关的数据 时间数据库包含一个时间相关的属性 时间序列数据库存储随时间而变化的信息(例如:股票交易) data mining作用 发现对象演化特征和变化趋势 银行根据顾客流量调度银行操作 股票投资决策 8.文本数据库 通常是长句和段落,如作者信息、错误报告等 大部分高度非结构化(某些WWW网页) 某些半结构化(email信息、html/xml网页) data mining作用 对象和类的特征描述 关键词和内容关联性分析 文本对象的聚类 9.多媒体数据库 存储图象、声音、视频数据 用于基于内容的图象检索、语音邮件系统、视频点播系统,WWW和语音识别系统等 要解决实时播放问题,图象、声音的连续性问题 10.异构数据库和遗产数据库 随着信息技术发展中所保留下来的一系列数据库是十

文档评论(0)

tkhyxy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档