- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
特征选择及其常用算法.pdf
特征选择及其常用算法
周桂芳李玲娟
南京邮电学院计算机工程系,南京,210003
摘要特征选择在模式识别、数据挖掘领域有着十分广泛的应用,同时也是需要有效解决的重
要问题。众多的学习系统使得使用同一种特征选择工具或方{去去解决所有问题几乎不可能。本文
从概念、模式、方法和技术等方面讨论了特征选择的相关问题。同时描述了典型的特征选择算法,
最后给出为不同的学习系统选择合适算法的思路.
关键词特征选择。算法.特征空间,机器学习
1引言
随着信息的日益膨胀及复杂性的不断加剧,我们所要解决问题的特征空间变得越来越庞
大,从大量候选特征中找出代表问题空间的最优特征子集的工作愈显重要。为此特征选择技术
已成为模式识别、数据挖掘等领域的研究热点之一。
特征选择是从一组已知特征集中按照某一准则选择出有很好的区分特性的特征子集,或
按照某一准则对特征的分类性能进行排序,常用于分类器的优化设计,其主要目的是通过排除
不相关和冗余属性减少特征的数目、降低特征空间维数,同时维持或增强分类的精度。因此,有
效的特征选择能在很大程度上减少分类系统的代价和运行时间。
特征选择中有两个关键问题:①有效的特征子集选择方法。②合适的特征评价标准。
本文根据自己的研究经验,从概念、模式、方法和技术等方面讨论了特征选择的相关问题。
同时描述了典型的特征选择算法,最后给出为不同的学习系统选择合适算法的思路。
略。这两种模式没有本质区别,他们的差别仅仅在于前者采用一些度量指标来评判特征子集的
优劣,而后者直接用学习算法的准确率作为评判的指标。一般来说,Filter模式效率比较高,但
效果稍差;Wrapper模式效率比较低,结果依赖于所用的分类算法,效果一般比较好。
2特征选择的常用算法
(1)基于遗传算法的特征选择
遗传算法(Genetic
优胜劣汰机制而得名。遗传因其自适应性、领域知识无关性、并行性、能较好地处理大规模复杂
数据、特别适合于解决多目标优化问题等诸多特性,而成为解决特征选择问题的理想方法。此
Nearest
外,遗传算法还可以和KNN(K Neighhor)分类器结合来增强分类精度。
图1反映了基于遗传算法的特征选择实现框架。
42
GA是个典型的过程
式方法,学习精确度高,但
仅适合小规模数据集}因学
习效果难以理解而难以维
护扩展}粗糙优化的能力很
强,但做精细优化的能力却 圉1基于遗传算法的特征选择过程
很不理想。
在遗传算法领域,有两个尚待解决的问题,一个是为了优化候选特征集的特征选择和遗传
算法的学习,另一个是遗传算法在不使用并行处理和计算机网络技术时在优化问题上的有效
应用。
(2)基于粗糙集理论的特征选择
-在进行特征选择时,利用两个特征集合R,P£A之间的相互依赖程度,可以确定某一特
(1)
分辨关系,PO(P)是同特征集合尺的各等价类在U/IND(P)中的所有正区域。
不同的特征对于决定条件特征和决策特征之间的依赖关系起着不同的作用。假设P为决
义为:SGF(a,R,尸)一%(P)
除以后,特征集合P和R之间的依赖程度的改变,从而体现出特征a的重要性。由(1)式可见,
的。
粗糙集的特征选择,是在不改变信息系统分析能力条件下,去除冗余属性,得到系统满意
的约简乃至最小约简,从这个意义上讲,它是高一层特征选择算法。
(3)基于神经网络的特征选择
基于统计信息和基于分类器的特征选择方法普遍应用了神经网络和决策树。多层前馈神
经网络如图2所示。这种包含隐藏层的神经网络也叫三层神经网络,典型的基于神经网络的算
法有向后传播分类。这种算法的优点是对噪声数据的高承受能力,以及它对未经训练的数据分
类模式的能力。但由于人们很难理解蕴涵在学习权之中的符号的含义,而被批评其可解释性
差。
(4)基于关联规则的特征选择
关联规则的思想主要用于数据挖掘算法,最近,
数据挖掘技术业已将关联规则用于分类问题。预先指
定最小支持度的规则是频繁的,满足最小置信度的规
则是
您可能关注的文档
最近下载
- [哲学/历史]四山摩崖石刻.doc VIP
- 小学语文部编版三年级下册《修改病句》专项练习(共63题,附参考答案).pdf VIP
- 足球社团活动课教案(33页) .pdf VIP
- 2025至2030年中国发制品行业市场深度分析及投资战略规划报告.docx
- 哈尔滨工程大学808工程热力学2021年考研真题.pdf VIP
- 医院装饰装修施工方案(中建,103页).docx VIP
- 中建钢结构施工工艺指导手册完整版489P.pdf VIP
- 国联民生证券-联合研究专题:AI产业链全景系列1,全球Top100公司有哪些?.pdf VIP
- 湖北省省直行政事业单位办公用房装修和维修标准.doc VIP
- 中建大厦商务楼装饰装修工程施工方案.docx VIP
文档评论(0)