数据挖掘中基于遗传算法地数据预处理研究.pdfVIP

下载本文档

2
0
约1.12万字
约 4页
2017-08-18 发布于安徽
举报
版权申诉

数据挖掘中基于遗传算法地数据预处理研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘中基于遗传算法的数据预处理研究 779 数据挖掘中基于遗传算法的数据预处理研究术冯楠李敏强寇纪淞 (天津大学管理学院天津300072) 摘要：该文提出了一种基于遗传算法的数据预处理方法。数据挖掘过程中该方法能够解决如何对一个样本集进行数据分割，从而得到最佳训练集和测试集的问题。通过该方法进行数据分割，不仅提高了分类模型的分类精度，而且能够最小化训练集和测试集之间的噪声百分比。最后，利用一组软件项目样本数据为例说明该方法的有效性。关键词：数据挖掘；数据预处理；遗传算法；数据分割中图分类号：TP311．12 数据挖掘的主要目的就是发现隐藏在数据中的模拟自然选择和遗传机制，形成一种具有“生成+ 模式。而在各种识别模式当中，分类是数据挖掘过检验”特征的搜索算法。遗传算法以编码空间代替程中的一种重要模式。分类规则挖掘是构造一个分问题的参数空问，以适应度函数为评价依据，以编类函数(分类模型)，把具有某些特征的数据项映码群体为进化基础，以对群体中个体位串的遗传操射到某个给定类别上。作实现选择和遗传机制，建立起一个迭代过程。在在分类规则挖掘的数据预处理过程中，要将数这一过程中，通过随机重组编码位串中重要的基据集分割成一个训练集和一个测试集，来代表被抽因，使新一代的位串集合优于老一代的位串集合，样总体和现实世界的验证集。为了在数据挖掘过程群体的个体不断进化逐渐接近最优解，最终达到求中产生精确的分类规则，在数据预处理过程中选择解问题的目的¨’2J。遗传算法涉及五个基本要素：一种合适的训练集是至关重要的。但是，传统的数参数编码、初始群体设定、适应值函数设计、遗传据分割方法，例如简单随机抽样以及交叉验证等方操作设计和控制参数设定。法，不能确保根据训练集建立起来的分类模型利用遗传算法的运行过程为一个典型的迭代过程，测试集测试分类规则精确度时受到最小噪声的其必须完成的工作内容和基本步骤如下：干扰。 (1)选择编码策略，把参数集合x和域转换为本文提出了～种基于遗传算法的数据预处理方位串结构空间S；法。该方法能够解决如何对一个样本集进行数据分 (2)定义适应值函数厂(x)；割，从而得到最佳训练集和测试集的问题。通过该 (3)确定遗传策略，包括选择群体大小凡，选方法进行数据分割，不仅提高了分类模型的分类精择、交叉、变异方法，以及确定交叉概率、变异概度，而且能够最小化训练集和测试集之间的噪声百率等参数；分比。随机初始化生成群体P；计算群体中个体位串解码后的适应值 1 遗传算法厂(x 遗传算法抽象于生物体的进化过程，通过全面按照遗传策略，运用选择、交叉和变异算 +基金项目：国家自然科学基金资助项目作者简介：冯楠(1978一)，男(汉族)，山东省平原县，讲师。 E—mail：fengnan—1978@yallo仉com．cn 780 中国信息系统研究：理论与实践子作用于群体，形成下一代群体；函数值为+1，该样本属于正样本；否则，属于负 (7)判断群体性