- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于遗传算法的多关系数据挖掘的研究
摘要:多关系数据挖掘的研究领域涉及多个学科,它在由多张表构成的关系数据库中进行知识发现。遗传算法是模拟生物的遗传和进化过程而形成的一种自适应全局优化概率搜索算法。该文将遗传算法应用于多关系数据挖掘,组合使用Apriori方法可从多张表中高效地挖掘出有意义的关联规则。
关键词:多关系数据挖掘;遗传算法;关联规则;Apriori
中图分类号:TP311.13文献标识码:A 文章编号:1009-3044(2009)26-7333-02
Research on Multi-Relational Data Mining with Genetic Algorithm
SONG Yang, ZHU Yi
(Department of Computer and Information Engineering, Huainan Normal University, Huainan 232001, China)
Abstract: Multi-Relational Data Mining is the multi-disciplinary field dealing with knowledge discovery from relational databases consisting of multiple tables. Genetic algorithm is Adaptive Probabilistic Search Algorithm for Global Optimization, simulating the biological genetics and evolution. This paper applies genetic algorithms to multi-relational data mining, combining Apriori method to efficiently find out meaningful association rules from multiple tables.
Key words: multi-relational data mining; genetic algorithm; association rule; Apriori
数据挖掘是数据库研究、开发和应用最活跃的分支之一。简单的说,数据挖掘是从大量数据中提取有趣的模式。传统的数据挖掘方法都是从单一的数据表中寻找规则,然而,在现实应用中,大部分数据库都是关系的,把多张表中的数据挤压进一张表需要花费大量的心思和工夫,还可能造成信息的丢失,上述原因直接推动了多关系数据挖掘研究的兴起和发展。
作为一种最有影响的挖掘关联规则的算法,Apriori的核心思想是找出最大频繁项集,实际是全局搜索的过程。该文将遗传算法这种全局优化算法用于多关系数据挖掘,能够高效地发现有价值的规则。
1 多关系数据挖掘
多关系数据挖掘(Multi-Relational Data Mining,简称MRDM)是数据挖掘研究方向热点研究课题之一,然而,与现有的大多数数据挖掘方法不同的是,多关系数据挖掘不是只在一张单独的数据表中发掘模式,它是在关系数据库的多张表中进行知识发现。多关系数据挖掘MRDM也被简称为关系数据挖掘RDM [1]。
就像许多的传统数据挖掘算法都是来自于机器学习领域,许多的多关系数据挖掘算法都是来自于ILP领域。早起的ILP研究集中于从例子中自动地合成Prolog程序,然而近些年来,由于知识发现和数据挖掘的研究的兴起,ILP的研究范围已经覆盖了整个数据挖掘的领域(包括分类,回归,聚类,关联分析等等),大部分一般的模式类型已经扩展到了相应的关系模式(如关系分类规则,关系回归树,关系关联规则)中,并已有了主要的关系数据挖掘算法(决策树归纳,基于距离的聚类等等)。
2 遗传算法
遗传算法也被称为基因算法(Genetic Algorithm,简称GA),是20世纪70年代初由美国Michigan大学的Holland教授发展起来的。遗传算法借鉴了大自然生物进化过程“适者生存”的普遍规律:最能适应环境的种群往往产生更大的后代种群[2]。
遗传算法将优化问题的解空间映射为遗传基因空间,把可能的解编码为染色体,染色体的每一位称为基因。其基本思想是[2-3]:首先随机地生成一个初始种群,然后计算每个个体对问题环境的适应度,再根据适应度对染色体进行选择,抑制适应度低的染色体,激发适应度高的染色体,然后进行交叉、变异等遗传操作产生下一代种群。如此反复,不断向更优解进化,最后得到满足收敛条
文档评论(0)