- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于混合算法分类规则挖掘
一种基于混合算法的分类规则挖掘
摘 要:为了高效地从数据库中挖掘分类规则,提出了一种将粒子群优化算法和遗传算法相结合的新算法。该算法的核心思想为:对规则的前件进行二进制编码,适应度函数的计算由分类规则的准确率和简洁度构成。并将此算法分别与遗传算法和粒子群算法进行了实验比较,结果表明该算法不仅具有更快的收敛速度,而且获得了更高的预测准确率。
关键词:数据挖掘;粒子群优化算法;遗传算法;分类规则
中图分类号:TN919
文献标识码:A
文章编号:(2008)01-0106-03
随着信息技术的飞速发展,商业、企业、医药卫生、科学研究等各个领域与行业所积累的数据正在呈指数级增长,这些大量的数据信息通常以数据库的方式存储,随着这些数据库的规模和数量的增加,“数据丰富,信息贫乏”的现象日益严重。人们迫切需要从中发现有用的信息或知识。针对这一需求,出现了“数据挖掘”这一崭新的、具有挑战性的研究领域,分类规则挖掘就是数据挖掘的一个重要研究领域。[1]
分类就是某一事物或对象的类别。我们所做的任何一个判断都是一个分类,只是我们日常判断所用的知识大多来自于经验数据。分类规则挖掘是基于归纳学习的思想,通过研究已知其类别的诸多对象,发现对象属性与其类别间的关系,也即分类规则。分类规则挖掘是研究一组已知其类别的数据对象(训练数据集)的属性与其类别间的关系,发现其规律(分类的规则),以用来对未知类别的数据对象做出类别判断。分类规则的挖掘采用的算法有很多。近年来,有关学者提出了基于遗传算法(Genetic Algorithm,简写为GA)[2]的分类方法以及基于粒子群算法(Partical Swarm Optimization,简写为PSO)[3]的分类方法,并取得了较好的分类效果,但是GA算法导致预测准确率不高,PSO算法用于分类规则挖掘时收敛速度较慢。为了克服GA与PSO的上述不足,本文提出将粒子群优化算法和遗传算法相结合的混合启发式方法来进行分类规则的挖掘。
一、分类规则编码与适应度函数
1.分类规则编码
本文采用Michigan方法来对分类规则进行编码,种群中的每个个体代表一条分类规则,规则集对应整个种群。只对分类规则的前件(IF部分)进行二进制编码,混合算法的每次执行返回一个类标签。
假定特征属性为离散型,如果一个属性划分为n个区间,则属性值的数目为n,二进制串的长度为[log??2(n)],属性值的索引(1~n)转变为对应的长度为[log??2(n)]二进制串,即为该属性值的编码。对于数值属性,采用等宽分箱方法进行离散化,一个属性的值域被划分为等宽的箱中,如果n是箱的个数,max与min分别是属性值域的最小和最大值,则(max-min)/n是箱的宽度,[log??2(n)]是二进制串的长度。较大的n值使箱宽变小,二进制串变长,使算法更难收敛到最优解,计算代价更高。由于这些原因,大部分数值属性划分到2到4个离散区间。
2.适应度函数
适应度函数应能评价个体(规则)的好坏。假设数据集D有类别属性c,规则R是关于类别c的一条分类规则。称被按规则R正确分类为类别c的样本数为真正样本数,记为Tp,D中类别为c的样本个数为正样本数,记做pos。D中类别不为c的样本个数为负样本数,记为neg。D中被按规则R正确拒绝分为类别c的样本数为真负样本数,记为Tn。为了提高分类规则的挖掘效果,本文的适应度函数主要由分类规则的预测准确率以及规则的简洁度构成,分别定义为:
其中,attri是数据集上的属性总数,v_attri是规则中出现的属性个数。
以上定义的预测准确率,简洁度可以从不同角度表明规则的性质。规则的预测准确率(accuracy)越高,说明规则正确分类的样本越多;规则的简洁度(simplicity)越大,说明规则的结构越简单,规则越容易理解。由于分类规则挖掘最终要得到的是能将数据尽可能正确分类,而且又易于理解的规则集,而不是某个单一的最优规则。因此本文在定义分类规则适应度时,加入两个系数来调整适应度中正确率与简洁度的权重,采用的分类规则适应度计算公式为:
其中,θ??1、θ??2分别是准确率和简洁度的权重系数,取值介于1~2之间。
二、核心规则挖掘算法
通过上述分类规则编码和分类规则适应度的定义,就可以利用本文提出的粒子群优化算法和遗传算法相结合的混合启发式算法进行分类规则的挖掘。
核心挖掘算法以设置种群大小开始。此算法设计为允许GA和PSO并行混合和串行混合两种方式工作。如果GA和PSO的种群规模都设置为一个不为零的常数,将执行并行混合算法。此算法也可以通过设置种群规模来指定启发式算法的
文档评论(0)