网站大量收购独家精品文档,联系QQ:2885784924

第七章 数据挖掘.ppt

  1. 1、本文档共255页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 数据挖掘.ppt

第七章 数据挖掘 7.1 数据挖掘概念 Data mining—core of knowledge discovery process 数据挖掘技术的由来 1 网络技术的高度发展 2 数据爆炸但知识贫乏 3 支持数据挖掘技术的基础 4 从商业数据到商业信息的进化 数据爆炸但知识贫乏 激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。 目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。 支持数据挖掘技术的技术基础 海量数据搜集 强大的多处理器计算机 数据挖掘算法 从商业数据到商业信息的进化 数据挖掘的定义 1 技术上的定义 2 商业角度的定义 3 数据挖掘与传统分析方法的区别 数据挖掘在技术上的定义 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 原始数据可以是结构化,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。 发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。 发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。 商业角度定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 研究历史 出版物及工具 有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威。在网上还有许多自由论坛,如DM Email Club等。至于DMKD书籍,可以在任意一家计算机书店找到十多本。 目前,世界上比较有影响的典型数据挖掘系统有:SAS公司的Enterprise Miner、IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、还有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。还可以访问.网站,该网站提供了许多数据挖掘系统和工具的性能测试报告。 7.2 基本数据挖掘模型与任务 数据挖掘模型在本质上可分为预测模型与描述型模型两类。 每类模型下都包含一些需要用到该类模型的最长用的数据挖掘任务。 7.2 基本数据挖掘模型与任务 7.2 基本数据挖掘模型与任务 预测模型:对数据的值进行预测。预测型建模可能是基于使用其他的历史数据。 预测型模型能够完成的数据挖掘任务包括:分类、回归、时间序列分析和预测。 7.2 基本数据挖掘模型与任务 描述型模型:对数据中的模式或关系进行辨识。与预测模型不同,描述型模型提供了一种探索被分析数据性质的方法,而不是预测新的性质。 聚类、汇总、关联规则和序列发现在本质上都通常被视为是描述型的。 7.3 基本数据挖掘任务 分类 分类是指将数据映射到预先定义好的群组或类。因为在分析测试数据之前,类别就已经被确定了,所以分类通常被称作有指导学习。 分类算法要求基于数据属性值来定义类别。分类算法通常通过观察已知所属类别的数据的特征来描述类别。 7.3 基本数据挖掘任务 分类 例1:信用卡公司必须决定是否授权可以使用信用卡支付。假设根据使用信用卡支付的历史信息,每一次支付被划分为如下4类:授权、在授权前要求进一步确认、不授权、不授权且报警。 7.3 基本数据挖掘任务 分类 例2:为了识别乘客是否是潜在的恐怖分子或罪犯,机场安全摄像站需要对乘客的脸部进行扫描并辨识脸部的基本模式,然后将得到的模式与数据库中的已知恐怖分子或罪犯的模式进行逐个比较,看看是否与其中的某一模式相匹配。 7.3 基本数据挖掘任务 回归 回归(regression),用于预测连续的目标变量。 例如,预测一个Web用户是否会在网上书店买书是分类任务,因为该目标变量是二值的。 另一方面,预测某股票的未来价格是回归任务,因为价格具有连续值属性。 7.3 基本数据挖掘任务 时间序列分析 时间序列模式根据数据随时间变化的

文档评论(0)

好文精选 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档