基于GP算法的知识发现系统_计算机论文.docVIP

基于GP算法的知识发现系统_计算机论文.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GP算法的知识发现系统_计算机论文.doc

基于GP算法的知识发现系统_计算机论文 基于GP算法的知识发现系统_计算机论文 摘 要 本文提出了一个新的知识发现系统。该系统以遗传编程算法为核心,解决发现一组属于面向对象数据库的对象所具有的共性问题。本文对系统作了扼要的说明,对GP算法进行了描述,并给出了一个实验例子。关键词 进化计算 遗传编程 知识发掘 在数据库中发现有用的知识是数据挖掘(Data Mining, DM)的主要任务,在一定的情况下,所有的数据库查询可以认为是完成这项任务。我们现在有一套分析和探索数据的工具:SQL查询、OLAP和数据挖掘技术。SQL查询由关系代数所构成;OLAP提供了建立在多维数据模型基础上的高水平查询;而数据挖掘提供了最抽象的数据分析操作。我们可以认为不同的数据挖掘任务是在高水平上的复杂查询。数据挖掘是机器学习和数据库技术的交叉学科,DM系统的主要特点是:在数据库中发现能够用某些规则表述的、隐含的知识;与数据库是紧密集成的;高度自动化的;对知识发现的处理是有效率的(尤其对大型数据库)。 这里我们给出一种基于GP(Genetic Programming,遗传编程)算法的知识发现系统,和通常对数据库的查询不同的是,这个系统可对特定的对象集产生特定的查询集,系统自动根据查询集访问数据库,从而发掘出数据库中隐含的知识。本文将对上述知识发掘过程进行详细描述,并提出了一种用遗传编程(GP)来进行数据挖掘的方法,GP个体由数据库查询组成,而这些查询代表了高水平上的规则。 1 系统基本结构 我们在[1]文给出的知识发现系统结构基础上加以改进,给出如图1的基于GP算法的知识发现系统。1.1 系统结构描述 整个系统由GP引擎、OODBMS(Object-Oriented Database Management System,面向对象数据库管理系统)、知识库、DB接口和用户接口组成。系统以一组对象、领域知识和模式信息作为输入。根据所给输入,GP引擎将产生许多随机的查询,系统将这些查询应用于OODBMS,OODBMS将返回其结果。系统用给定的输入对该返回结果进行评价,评价是计算个体查询的适应值的过程。那些能够匹配所给对象集的查询或查询集将被选中,在没有查询能够匹配所给对象集时,那么其最好的查询将被选中。最后,将能够最好地描述所给对象集特性的查询作为输出。 1.2 面向对象的数据库 这里,我们假定一个基于面向对象和函数的数据库模型(Object-Oriented and Functional Data Model, OOFDM),OOFDM具有面向对象和函数数据模式的特性。这种模型要比传统的关系数据库模型在表达知识时更加逼近和容易。OOFDM的基本概念是将感知到的真实世界作为相互关系对象的变量,并从不同的更细的层次上观察这些对象。[2]函数数据模型可以简单地借助函数的数学符号来表示数据间的关系。每个类(或实体集)有自己的属性和值,类与属性间的关系是将类中的对象集映射到属性域的一个函数。关系或逆关系组成了类间的连接。 1.3 查询算子 我们使用下列查询算子作为其面向对象数据库的查询语言。 ①SEL C-1 [(谓词)] 该算子选择所有属于C-1且满足谓词的对象。C-1既可以是一个类名也可以是一个属于C-1的查询。谓词是一个可选项。如果在这个算子里没有谓词,它将选择该类中的所有对象。 ②RES C-1 谓词 该算子根据所给谓词,限制给定集合的对象与另一个类的对象关联。C-1和谓词同SEL算子,但对于RES的谓词属性必须是关系型的属性,而对于SEL算子谓词属性则必须是非关系型属性。 ③REL C-1 R-r Class-2 该算子选择所有C-1中与C-2中对象有关联的对象。这是一个通过R-r 将一个类C-1与另一个类C-2关联起来的关系算子。R-r可以是一个通过C-1中定义的关系集中的关系属性之一。C-1既可以是一个类名也可以是一个属于C-1的查询。C-2必须是一个类名或是一个属于C-2的查询,并且通过R-r关联到另一个类C-1。 ④G-REL C-1 R-r C-2 该算子是REL的逆算子,它选择所有C-2中与C-1中对象有关联的对象。C-1、C-2以及R-r的意义同REL算子。 2 GP算法 遗传编程(GP)属于进化计算(Evolutionary Computation,EC)模型的一种。EC是一种借鉴自然界进化机制而产生的并行随机搜索算法。进化算法的基本原理是选择和改变,它区别于其他搜索方法有两个显著特征:首先这些算法都是基于种群(population)的;其次在种群中个体(indvidual)之间存在竞争。 为搜索特定的(感兴趣的)查询需要一种工具,这种工具可智能生成一组查询并以它们是否能导出与用户给定的同样的对象集来进行评价。GP算法对这一类问题是很实用的。

文档评论(0)

wyj199218 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档