浅谈数据挖掘和数据库知识发现.docVIP

  • 2
  • 0
  • 约3.13千字
  • 约 8页
  • 2018-10-09 发布于福建
  • 举报
浅谈数据挖掘和数据库知识发现

浅谈数据挖掘和数据库知识发现   [摘要]数据挖掘是解决数据库中数据急剧增大与利用率低之间矛质的必然结果。数据库知识发现(kdd)技术的应运而生使得人们在实际工作中消耗大量财力和物力的数据得以利用。这也是数据库知识和人工智能技术发展的结果。   [关键词]模式 数据库中的知识发现 数据挖掘   中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0920081-01      一、引言      随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大。但目前数据库系统所能做到的只是对数据库中已有的数据进行存取,人们通过这些数据所获得的信息仅仅是整个数据库所包含的信息量的一部分。也就是说传统的数据分析方法(例如:统计)只能获得这些数据的表层信息,而不能获得数据属性的内在关系和隐含的信息,即不能获得重要的知识。面对“堆积如山”的数据集合,无论在时间意义上还是空间意义上,传统的数据分析手段还是难以应付。这样,快速的数据产生与搜集技术和拙劣的数据分析方法之间形成了鲜明的对照。   在数据技术飞速发展的同时,人工智能和机器学习的研究也取得了很大进展。根据人类学习的不同模式人们提出了很多机器学习方法。如:实例学习、观察和发现学习、神经网络和遗传算法等等,其中某些成熟的算法已被人们运用于应用系统及智能机的设计和实现中。   正是由于数据库技术和人工智能技术的发展,也是为了满足人们实际工作的需要:“智能地”和“自动地”分析数据,以使消耗大量财力和物力所收集与整理的宝贵资源――数据得以利用,数据库知识发现(KDD)技术应运而生。      二、KDD与Data Minning      1996年KDD国际会议上KDD下了最新的定义:KDD是识别出存在于数据库中有效的(valid)、新颖的(novel)、具有潜在效用的(potentially useful)乃至最终可理解的(ultimatly understandable)模式的非平凡过程。   数据:是指一个有关事实F的集合,它是用来描述事物有关方面的信息的。   模式:对于集合F的数据,用语言L来描述其中的数据的特性。从实际应用角度来讲,这里所说的模式提取意味着寻求数据的模型和结构,或产生数据集的高层描述。   处理过程:KDD是一个多步骤的处理过程,包括数据预处理、模式提取、知识评估及过程优化。我们说这个过程是非平凡的,主要是指这个过程中加入了启发参考信息,也就是说它并不是我们平常所说的数据集合上的计算,不是在预先定量基础上的一个直接计算。   可信:通过KDD从当前数据所发现的模式必须有一定的正确程度,否则KDD就毫无作用。可以通过新增数据来检验模式的正确性。   新颖:经过KDD提取出的模式必须是新颖的,至少对系统来说应该如此。模式是否新颖可以通过两个途径来衡量:其一是得到的数据,通过当前获得数据和以前的数据或期望得到的数据之间比较,来判断该模式的新颖程度;其二是通过其内部所包含的知识,通过对比发现的模式与已有模式的关系来判断。   潜在作用:提取出的模式应该是有意义的,例如,它可以给用户或工程带来好处。   可被人理解:KDD的一个目标就是将数据库中隐含的棋式以容易被理解的形式表现出来。为此,可以辅以后期处理:如解释过程。   KDD是一个多步骤的处理过程,在处理过程中可能会有很多次的反复。主要包括以下一些步骤:   1.准备。了解KDD相关领域的有关情况,熟悉背景知识,并弄清楚用户的要求。   2.数据选择。根据用户的要求从数据库中提取与KDD相关的数据,KDD将主要从这些数据中进行知识提取,在此过程中,会利用一些数据库操作对数据进行处理。   3.数据预处理。主要是对阶段2产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据可以利用统计方法进行填补。   4.数据缩减。对经过预处理的数据,根据知识发现的任务对数据进行再处理,主要通过投影或数据库中的其他操作减少数据量。   5.确定KDD的目标。根据用户的要求,确定KDD是发现何种类型的知识,因为对KDD的不同要求,会在具体的知识发现过程中采用不同的知识发现算法。   6.确定知识发现算法。根据阶段分析所确定的任务,选择合适的知识发现算法,这包括选取合适的模型和参数,并使得知识发现算法与整个KDD的评判标准相一致。   7.数据挖掘(DM)。运用选定的知识发现算法,从数据中提取用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方法,如产生规则等。   8.模式解释。对发现的模式进行解释。在此过程中,为了取得更为有效的知识,可能会返回前面处理步骤中的某些步以反复提取,

文档评论(0)

1亿VIP精品文档

相关文档