数据挖掘浅述.docVIP

  • 4
  • 0
  • 约2.63千字
  • 约 7页
  • 2018-11-16 发布于福建
  • 举报
数据挖掘浅述

数据挖掘浅述   [摘要]数据挖掘是数据库领域中报有应用价值的课题,支持决镱系统,人工智能等领域。简要介绍数据挖掘的概念以及分类。另外。重点介绍数据挖掘的两种主要技术。   [关键词]数据挖掘 人工神经网络 决策树   中图分类号:TP3 文献标识码:A 文章编号:1671―7597(2009)1020081―01      随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关联和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象,应用的需求促使一门新的技术诞生数据挖掘。      一、数据挖掘的概念      数据挖掘的概念有多种的描述,其中常见的概念描述有如下的两种:   第一种,GPi atetsky Shapior,w.J.Frawley等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先进未知的、潜在有用的信急的非平凡过程。   第二种,数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。      二、数据挖掘的分类      从不同的视角看,数据挖掘技术有一下三种分类方法:   1、根据发现知识的种类分类。2、根据挖掘的数据库的种类分类。3、根据采用的技术分类。      三、数据挖掘的主要技术介绍      数据挖掘的技术主要分为两类:一类是预言,用历史来预测未来;另一类是描述,目的是了解数据中的潜在规律。具体来说主要可以分为人工神经网络技术、决策树、遗传算法、近邻算法、规则推导等。下面说一下人工神经网络与决策树[2]。   (一)人工神经网络。神经网络最早是由心理学家和神经生物学家提出的,旨在寻求开发和测试神经的计算模拟。粗略的说,神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相相联。在学习阶段,’通过调整神经网络的权,使得能够;预测输入样本的正确类标号来学习。由于单元之间的连接,神经网络学习又称连接者学习[3]。   (二)决策树。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险太小做出判断,图1是为了解决这个问题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、分支和叶子。   决策树的每个节点子节点的个数与决策树在用的算法有关。如CART算法得到的决策树每个节点有两个分支,这种树称为X树。允许节点含有多于两个子节点的树称为多叉树。   数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷款风险)。常用的算法有CHAID、CART、Quest~C5,0[4]。      四、数据挖掘的功能      数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。   (一)自动预测趋势和行为。数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。   (二)关联分析。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。   (三)聚类。数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。   (四)概念描述。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。   (五)偏差检测。数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是

文档评论(0)

1亿VIP精品文档

相关文档