- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[有关特征选择内容
特征选择和集成学习是当前机器学习中的两大研究热点,其研究成果己被广泛地应用于提高单个学习器的泛化能力。
特征选择是指从原始特征集中选择使某种评估标准最优的特征子集。其目的是根据一些准则选出最小的特征子集,使得任务如分类、回归等达到和特征选择前近似甚至更好的效果。通过特征选择,一些和任务无关或者冗余的特征被删除,简化的数据集常常会得到更精确的模型,也更容易理解。
滤波式(filter)方法的特征评估标准直接由数据集求得,而无需学习算法进行反馈,其优点是运行效率高,因此非常适用于集成学习. 假设用于集成的特征选择算法有k种,,抽取产生 m 个子训练集,在每个训练集上利用其中一种特征选择算法选出满足条件的属性作为个体svm训练的输入空间,并训练得到 m个 svm个体,然后对其他的特征选择算法重复执行上述过程,最后将得到的k*m 个子svm的预测结果集成.
特征选择是从一组数量为 D 的原始特征中选出数量为d(Dd)的一组最优特征采用遗传退火算法进行特征选择. 随机生成长度为 D 的二进制串个体其中1 的个数为d 。连续产生这样的个体M 个M 为种群规模其大小影响着遗传算法的最终结果及其执行效率M。
特征选择的目的是找出分类能力最强的特征组合需要一个定量准则来度量特征组合的分类能力。度量特征选择算法优劣的判据很多各样本之所以能分开是因为它们位于特征空间的不同区域如果类间距离越大类内各样本间的距离越小则分类效果越好。
各种新搜索算法和评估标准都应用到特征选择算法中。如粗糙集算法,神经网络剪枝法,支持向量机的评估标准,特征集的模糊嫡评价,马尔可夫算法等
入侵检测系统的数据含有大量的冗余与噪音特征,使得系统耗用的计算资源很大,导致系统训练时间长,实时性差,检测效果不好,引入特征选择算法能够去除高维数据中无用和冗余的信息,保留对分类效果起关键作用的信息,在不影响分类效果的同时减少数据量,降低了数据存储复杂度,减轻系统负荷,提高入侵检测系统的检测速度,增强入侵检测系统的健壮性。
入侵检测问题从机器学习的角度看实际上是一个分类问题,分类器的性能不仅与分类器设计算法有关,而且与选择的特征子集有关。一个高度相关的特征子集可有效改进分类器的性能,因而特征选择(属性约简)具有重要的理论意义和应用价值。
集成学习(Ensemble Learning)是通过将一组学习器以某种方式组合在一起可以显著提高学习系统的泛化能力(有监督的分类器集成和半监督的分类器集成)。
神经网络集成可以显著地提高神经网络系统的泛化能力,被视为一种非常有效的工程化神经计算方法。然而,实际应用中集成系统的个体弱学习器成员可以是任何学习算法,如最近邻法、贝叶斯方法、神经网络及支持向量机等。从这点上讲,可以说集成学习只是提供了一个广义的框架,针对具体的机器学习问题需要设计具体的集成学习模型。
基于遗传算法的特征选择算法中一般选择适配值最高的个体作为特征选择的结果,而抛弃了其他个体。我们设想,是否其他个体也会提供有用的信息,如果在不同的个体(即特征子集)上训练得到不同的个体分类器,然后将这些分类器组合起来,是否会得到很好的集成分类结果。
机器学习中的特征选择可定义为:己知一个特征集,从中选择一个子集可以使得评价标准最优。
从特征选择的定义可见,在给定学习算法、数据集及特征集的前提下,各种评价准则的定义和优化技术的应用将构成特征选择的重要内容。
特征选择作为应用于数据挖掘中消除数据噪声的一种技术,也作为根据某一准则从原有的特征中选择出最优的特征组合实现对数据进行预处理的一种常用手段。选出与结果最相关的特征,排除不相关或者冗余的特征,从而提高判断的准确率。
本文运用以具有良好泛化能力的支持向量机的特征选择和集成分类器新技术,在支持向量机分类的基础上,以特征选择和基于特征选择的集成学习方法为主要研究内容,以影响支持向量机性能的主要因素为研究对象,对正则化参数C和核函数参数的选择进行了较深入的研究,并通过对多个成员分类器结果的集成,以进一步提高对数据挖掘的学习泛化能力。
在遗传算法优化特征子集的同时,把支持向量机参数混编入遗传算法的遗传假设中,从而实现同步优化特征子集和支持向量机参数。
集成学习就是利用有限个学习器对同一个问题进行学习,某样本的输入的输出值是由构成集成的各学习器共同决定的。
集成学习方法是通过训练大量的基学习器,然后按照一定的标准选择一部分基分类器进行集成,最终能获得较好的分类效果。
使用特征选择对数据进行预处理。采用主成分分析法先对数据进行预处理。
由于特征子集大小变化幅度很大,我们可以根据特征子集大小使用不同的搜索策略来搜索特征空间。目前,搜索策略大致分为3种: 完全搜索,启发性搜索和随机搜索。完全搜索就是在事先知道特征子集大小的情况下,
您可能关注的文档
- [最牛的清理磁盘方法,让你电脑开机像过山车一样快.doc
- [诗经两首氓.ppt
- [大兴区203~2014学年第一学期期末高一数学试题.doc
- [最科学的1天5餐时间表.docx
- [大内科各科主任查房病历问题汇总一.doc
- [大唐热工竞赛选拔试卷.doc
- [大型企业调查问卷——马奇.doc
- [最终汇报空竹文档.doc
- [最新简笔画图片精选-3.doc
- [大型公共建筑能耗调查分析.docx
- 2025年HarmonyOS开发者技术生态现状洞察报告.pdf
- 苏州工业园区近零碳园区建设路径研究.pptx
- OpenAI Agent测试报告介绍.pdf
- 中国潮玩全球化:IP生态与千亿市场新范式.pdf
- 从Idea构想到论文发表:AI+for+Research全链路综述与实践.pdf
- LF160 (3.22V 160Ah)方形铝壳磷酸铁锂电池产品规格书B版-2020.06.09.docx
- 自主人工智能代理将成为采购和供应链运营的未来而它们已然到来!.pdf
- 2025国际低空经济与无人系统博览会 展会报告.pdf
- 2025腾讯新闻招商资源手册.pdf
- T_FSYY 0023-2021 退役动力电池梯次利用产品 家庭储能用电池.docx
最近下载
- 2025年基层全科医生能力提升题库答案-华医网项目学习.docx VIP
- 《“1+X”无人机摄影测量》课件——项目三 像控点采集.pptx VIP
- 中医英语入门-学堂在线网课答案修改版.doc VIP
- 健康照护师练习试题及答案.docx
- 总公司与分公司的协议书.docx
- 一例脑梗死合并消化道出血的个案护理(1) PPT课件.pptx VIP
- 股东无息借款协议通用7篇.docx VIP
- 基于BIM技术降低机电管线综合布置碰撞率.docx VIP
- 《“1+X”无人机摄影测量》课件——项目六 数字正射影像图.pptx VIP
- 2023年江苏省健康照护行业职业技能竞赛考试复习题库-下(判断题部分).pdf VIP
文档评论(0)