什么是数据挖掘——学习资料.doc

PAGE PAGE 32 什么是数据挖掘   数据挖掘,在人工智能领域,习惯上又称为数据库中的 HYPERLINK /view/77853.htm \t _blank 知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。   并非所有的信息发现任务都被视为数据挖掘。例如,使用 HYPERLINK /view/600155.htm \t _blank 数据库管理系统查找个别的记录,或通过 HYPERLINK /view/1706.htm \t _blank 因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和 HYPERLINK /view/9900.htm \t _blank 数据结构,但是它们主要依赖传统的 HYPERLINK /view/92404.htm \t _blank 计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此, HYPERLINK /view/49979.htm \t _blank 数据挖掘技术也已用来增强 HYPERLINK /view/665140.htm \t _blank 信息检索系统的能力。 数据挖掘的起源   需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括 HYPERLINK /view/646051.htm \t _blank 商务管理,生产控制,市场分析,工程设计和科学探索等。   数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) HYPERLINK /view/2949.htm \t _blank 人工智能、 HYPERLINK /view/14685.htm \t _blank 模式识别和 HYPERLINK /view/7956.htm \t _blank 机器学习的 HYPERLINK /view/3688332.htm \t _blank 搜索算法、建模技术和 HYPERLINK /view/588169.htm \t _blank 学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、 HYPERLINK /view/15076.htm \t _blank 信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要 HYPERLINK /view/7809.htm \t _blank 数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量 HYPERLINK /view/262162.htm \t _blank 数据集方面常常是重要的。分布式技术也能帮助处理 HYPERLINK /view/125910.htm \t _blank 海量数据,并且当数据不能集中到一起处理时更是至关重要。 HYPERLINK /view/7893.html 数据挖掘能做什么   1)数据挖掘能做以下七种不同事情(分析方法):  · 分类 (Classification)   · 估计(Estimation)   · 预测(Prediction)   · 相关性分组或 HYPERLINK /view/1076817.htm \t _blank 关联规则(Affinity grouping or association rules)   · 聚类(Clustering)   · 描述和可视化(Description and Visualization)   · 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)   2)数据挖掘分类   以上七种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘   · 直接数据挖掘   目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。   · 间接数据挖掘   目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系 。   · 分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘   3)各种分析方法的简介   · 分类 (Classification)   首先从数据中选出已经分好类的训练集,在该训练集

文档评论(0)

1亿VIP精品文档

相关文档