- 8
- 0
- 约6.23千字
- 约 13页
- 2018-11-16 发布于福建
- 举报
数据挖掘概念总结
数据挖掘概念总结
摘要:数据挖掘技术是新兴的、重要的、具有广阔应用前景和富有挑战性的综合学科。本文首先介绍了数据挖掘的历史、概念,阐述了数据挖掘的步骤,并对数据挖掘的特点、功能、模式进行了综述,最后以发现任务来进行总结。
关键词:数据挖掘 概念 任务发现
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2014)01-0193-03
数据挖掘又称从数据库中知识发现、分析数据、融合数据及作支持决策。从1989年到现在,KDD的定义随着人们研究的不断深入也在不断完善,目前比较公认的定义是Fayyad等给出的:KDD是从数据集中识别出高效、新奇、潜在有用的信息表示的过程处理。从概念我们得出,数据挖掘可具体描述为从海量的具有不完整性、歧义、模棱两可的、任意抽取的数据中,提取内在、不显而易见、可蕴涵着对社会生活有用的信息和知识发现的过程。专家学者称海量的初始数据为知识形成的源泉,好像从油田中采石油一样。海量的初始数据可以是关系数据库中结构化,同时也可以是文字、图像、声音半结构化的数据,也可能是分布在云上的知识异构型数据。知识发现运用数学的数理统计,也可以是人工智能、机器学习等;可以推断分析,也可以是归纳演绎。知识发现广泛应用于管理信息系统、数据库查询设计、支持决策系统、过程适时控制中,最根本的是适用于数据本身的维护。所以,数据挖掘是综合的、交叉学科,它汇聚了不同专业领域的专家学者,特别是数据库、机器学习、人工智能、数理统计、专家系统、数值分析等方面的学者和从事计算机技术的专业人员。
1 数据挖掘的特点及功能
1.1 数据挖掘的特点
数据挖掘具有如下几个特点,当然,这些特点与数据挖掘要处理的数据和目的是密切相关的。
(1)处理的数据规模十分巨大;
(2)用户随时随地查询,达不到用户的查询要求;
(3)必须对海量大数据作出分析,为需要提供理论支持;
(4)主要基于大样本的统计规律,其发现的规则不一定适用于所有数据。
1.2 数据挖掘的功能
要清楚数据挖掘的功能,就要很深刻的理解知识发现,从范围大小来说知识可分为:同类性知识,反映相同类别事物相同性质的知识;特征性知识,不同事物间以不同的特征为区分点的知识;差别性知识,不同事物之间属性差别的知识体现;关系性知识,事物之间相互依赖或事物之间具有某中关系的知识;预见性知识,根据也有的数据信息推测预见得出的知识;异常知识,事物打破常规呈异常现象的知识。我们可以利用相关的方法对事物从不同的角度、不同的层面进行知识的发现,把发现的知识广泛应用于现代生产生活中。例如,从一家网上书城网站的数据库中,我们可以得到关联规则关系性知识可能是“买人工智能图书和数据挖掘图书的顾客十有八九也买机器学习方面的图书”,也可能是“买图书的顾客几乎都用网上银行进行支付”,这些关系对于网站开发和制定网络营销等是非常有用的。常见的知识发现方法有分类、聚类、决策树、不确定性处理等。总结起来,数据挖掘有如下几个功能:预测/验证功能:预测/验证功能指用数据库的若干已知字段预测或验证其他未知字段值。预测方法有数理统计、范式识别和树预测方法、线性回归等。描述功能:描述功能指找到描述数据的可理解模式。描述方法包括以下几种:数据分类、回归分析、簇聚、概括、构造依赖模式、变化和偏差分析、模式发现、路径发现等。
2 实现数据挖掘的步骤
KDD包括以下步骤:
(1)数据准备。KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接对大数据进行数据的分析挖掘,需要着手对大数据做好准备工作,相关数据的选择、净化(消除噪音、冗余)、推断(推断数据)、类型转换、数据缩减(减少数据量)。如果KDD的对象是数据仓库,那么这些工作往往在生成数据仓库时已经准备妥当。数据准备是KDD的第一个步骤,也是比较重要的一个步骤。数据准备是否做好将影响KDD的有效性和发生效率。
(2)数据挖掘。数据挖掘是KDD最关键的步骤,也是技术难点所在。研究KDD的人员中大部分都在研究数据挖掘技术,采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。数据挖掘根据KDD的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式模型。
(3)评估、解释模式模型。上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。这个步骤还包括把模式以易于理解的方式呈现给用户。
(4)巩固知识。用户理解的、并被认为是符
原创力文档

文档评论(0)