数据挖掘中基于遗传算法地数据预处理研究.pdfVIP

数据挖掘中基于遗传算法地数据预处理研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘中基于遗传算法的数据预处理研究 779 数据挖掘中基于遗传算法的数据预处理研究术 冯楠 李敏强寇纪淞 (天津大学管理学院天津300072) 摘要:该文提出了一种基于遗传算法的数据预处理方法。数据挖掘过程中该方法能够解决如何对一个样本 集进行数据分割,从而得到最佳训练集和测试集的问题。通过该方法进行数据分割,不仅提高了分类模型的分类精 度,而且能够最小化训练集和测试集之间的噪声百分比。最后,利用一组软件项目样本数据为例说明该方法的有 效性。 关键词:数据挖掘;数据预处理;遗传算法;数据分割 中图分类号:TP311.12 数据挖掘的主要目的就是发现隐藏在数据中的 模拟自然选择和遗传机制,形成一种具有“生成+ 模式。而在各种识别模式当中,分类是数据挖掘过 检验”特征的搜索算法。遗传算法以编码空间代替 程中的一种重要模式。分类规则挖掘是构造一个分 问题的参数空问,以适应度函数为评价依据,以编 类函数(分类模型),把具有某些特征的数据项映 码群体为进化基础,以对群体中个体位串的遗传操 射到某个给定类别上。 作实现选择和遗传机制,建立起一个迭代过程。在 在分类规则挖掘的数据预处理过程中,要将数 这一过程中,通过随机重组编码位串中重要的基 据集分割成一个训练集和一个测试集,来代表被抽 因,使新一代的位串集合优于老一代的位串集合, 样总体和现实世界的验证集。为了在数据挖掘过程 群体的个体不断进化逐渐接近最优解,最终达到求 中产生精确的分类规则,在数据预处理过程中选择 解问题的目的¨’2J。遗传算法涉及五个基本要素: 一种合适的训练集是至关重要的。但是,传统的数 参数编码、初始群体设定、适应值函数设计、遗传 据分割方法,例如简单随机抽样以及交叉验证等方 操作设计和控制参数设定。 法,不能确保根据训练集建立起来的分类模型利用 遗传算法的运行过程为一个典型的迭代过程, 测试集测试分类规则精确度时受到最小噪声的 其必须完成的工作内容和基本步骤如下: 干扰。 (1)选择编码策略,把参数集合x和域转换为 本文提出了~种基于遗传算法的数据预处理方 位串结构空间S; 法。该方法能够解决如何对一个样本集进行数据分 (2)定义适应值函数厂(x); 割,从而得到最佳训练集和测试集的问题。通过该 (3)确定遗传策略,包括选择群体大小凡,选 方法进行数据分割,不仅提高了分类模型的分类精 择、交叉、变异方法,以及确定交叉概率、变异概 度,而且能够最小化训练集和测试集之间的噪声百 率等参数; 分比。 随机初始化生成群体P; 计算群体中个体位串解码后的适应值 1 遗传算法 厂(x 遗传算法抽象于生物体的进化过程,通过全面 按照遗传策略,运用选择、交叉和变异算 +基金项目:国家自然科学基金资助项目 作者简介:冯楠(1978一),男(汉族),山东省平原县,讲师。 E—mail:fengnan—1978@yallo仉com.cn 780 中国信息系统研究:理论与实践 子作用于群体,形成下一代群体; 函数值为+1,该样本属于正样本;否则,属于负 (7)判断群体性

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档