[PDF]数据挖掘技术介绍.pdf

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘技术 林源洪 集美大学理学院 (School of Sciences,Jimei University ) 1 第一章 引言 1 什么激发了数据挖掘,为什么它是重要的 需要是发明之母。数据挖掘之所以引起信息产业界的极大关注, 其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数 据转换成有用的信息和知识。获取的信息和知识可以广泛地用于各种 应用,包括商务管理、生产控制、市场分析、工程设计和科学探索。 所以,数据挖掘是信息技术自然演化的结果,因而是重要的。 2 什么是数据挖掘 简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。从广 义上来说,数据挖掘是从存放在数据库、数据仓库或其他信息库中的 大量数据中挖掘有趣知识的过程。基于这种观点,典型的数据挖掘系 统具有以下主要成分: 1)数据库、数据仓库或其他信息库 2 )数据库或数据仓库服务器 3 )知识库 4 )数据挖掘引擎(用于特征化、关联、分类、聚类分析以及演变与 偏差分析) 5 )模式评估模块 6 )图形用户界面 2 3 在何种数据上进行数据挖掘 原则上讲,数据挖掘可以在任何类型的信息存储上进行。它包括 以下几个方面: 1)关系数据库 2 )数据仓库 3 )事务数据库 4 )高级数据库系统 5 )展开文件和WWW 4 数据挖掘功能可以挖掘什么类型的模式 数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖 掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻划数据库 中数据的一般特性。预测性挖掘任务在当前数据上进行推断,并加以 预测。通常我们把它们分为以下几个类型: 1)概念/类描述:特征化和区分(Characterization and Discrimination ) 2 )关联分析(Association Analysis ) 3 )分类和预测(Classification and Predict ) 4 )聚类分析(Clustering Analysis ) 5 )孤立点分析(Outlier Analysis ) 6 )演变分析(Evolution Analysis ) 5 所有模式都是有趣的吗 答案显然是否定的。实际上,对于给定的用户,在可能产生的模 式中,只有一小部分是他感兴趣的。这就对数据挖掘系统提出了一系 3 列的问题。你可能会想:“什么样的模式是有趣的?数据挖掘系统能 够产生所有有趣的模式吗?数据挖掘系统能够仅产生有趣的模式 吗?” 模式是有趣的,通常它含以下几点:(1)它易于被人理解;(2 ) 在某种程度上,对于新的或测试数据是有效的;(3 )是潜在有用的; (4 )是新颖的。这样就存在一些模式兴趣度的客观度量。这些度量 基于所发现模式的结构和关于它们的统计。 第二个问题涉及数据挖掘算法的完全性。期望数据挖掘系统产生 所有可能的模式是不现实和低效的。实际上,应当根据用户提供的限 制和兴趣度对搜索聚焦。 第三个问题是数据挖掘的优化问题。对于数据挖掘系统,仅产生 有趣的模式是非常期望的。这对于用户和数据挖掘系统是非常有效 的,因为这样就不需要搜索所产生的模式,以便识别真正有趣的模式。 在这方面目前已经有了进展,然而,在数据挖掘中,这种优化仍然是 个挑战。 6 数据挖掘系统的分类 数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系 统、统计学、机器学习不、可视化和信息科学。根据不同的标准,数 据挖掘系统可以分类如下: 1)根据挖掘的数据库类型分类(不同标准如数据模型、涉及应用类型) 2 )根据挖掘的知识类型分类(不同功能如特征化、区分、关联等) 3 )根据所用的技术分类(如机器学习、统计学、可视化、模式识别) 4 4 )根据应用分类(如金融、电信、股票市场、DNA 、e-mail 等) 7 数据挖掘的主要问题 1)挖掘方法和用户交互问题 a .在数据库中挖掘不同类型的知识 b .多个抽象层的交互知识挖掘 c .结合

文档评论(0)

xina171127 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档