- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
森林优化算法在特征选择中的研究
摘要
大数据和物联网技术的发展,使得越来越多的数据被采集、存储和分析。数据规
模扩大的同时也包含了大量的冗余、不相关或者弱相关特征。这些特征与数据的主要
结构没有关联,或者只有松散的弱关联。特征选择技术通过对数据原特征空间分析,
过滤掉冗余和不相关特征,保留相关特征,进而提升算法的分类性能和时间效率。本
文以森林优化算法为基础,提出了两种新的特征选择算法,具体贡献和研究内容如
下:
(1)提出一种基于重复度分析的森林优化特征选择算法(featureselectionusing
forestoptimizationalgorithmbasedonduplicationanalysis,DAFSFOA)。针对森林优化特
征选择算法(featureselectionusingforestoptimizationalgorithm,FSFOA)初始种群质量
差、森林收敛速度慢,以及对高维数据集适应度差的问题,提出了基于信息增益的自
适应初始化策略。为了降低算法的内存消耗,对候选森林的规模进行了限制。同时,
采用重复度分析机制、森林重启机制和候选最优树生成策略,提高森林中个体的多样
性,增强算法的全局搜索能力。最后,改进适应度函数,增强算法对森林中个体的评
价能力。这有利于种群向增大维度缩减率的方向演化。实验表明,DAFSFOA的特征空
间探索能力强于FSFOA,而且能够适应不同维度的数据集。
(2)提出一种代理辅助的森林优化特征选择算法(surrogate-assistedforest
optimizationalgorithmforfeatureselection,SAFSFOA)。算法采用基于对称不确定性的异
常值过滤自适应初始化方法,进一步提高初始种群的质量与多样性。针对算法时间消
耗过大的问题,采用代理辅助森林进化的方法。在保证种群质量的同时,大大缩短了
评价森林中个体所需的时间。同时,采用改进的重复度分析策略降低森林中树木的相
似度。并且对种群的演化情况进行监控,在种群陷入局部最优时,触发森林停滞重启
策略,使用候选最优树补充森林树木,防止森林过早陷入局部最优,保证了森林时刻
处于高质量和高多样性的状态。对比DAFSFOA,SAFSFOA具有更快的收敛速度和更
小的时间消耗,同时也具有较强的寻优能力。
关键词:特征选择;森林优化算法;信息增益;对称不确定性;代理模型
森林优化算法在特征选择中的研究
Abstract
ThedevelopmentofBigDataandIoTtechnologieshasledtomoreandmoredatabeing
collected,storedandanalyzed.Theincreasedsizeofdataalsocontainsalargenumberof
redundant,irrelevantorweaklycorrelatedfeatures.Thesefeaturesarenotassociatedwiththe
mainstructureofthedataorareonlylooselyandweaklyassociated.Featureselection
techniquesfilteroutredundantandirrelevantfeaturesandretainrelevantfeaturesby
analyzingtheoriginalfeaturespaceofthedata,thusimprovingtheclassificationperformance
andtimeefficiencyofthealgorithm.In
文档评论(0)