有关特征选择内容.doc

下载文档 降价啦

8
0
约7.96千字
约 18页
2017-01-07 发布于未知
举报
版权申诉
保障服务

有关特征选择内容.doc

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

有关特征选择内容有关特征选择内容

特征选择和集成学习是当前机器学习中的两大研究热点,其研究成果己被广泛地应用于提高单个学习器的泛化能力。特征选择是指从原始特征集中选择使某种评估标准最优的特征子集。其目的是根据一些准则选出最小的特征子集,使得任务如分类、回归等达到和特征选择前近似甚至更好的效果。通过特征选择,一些和任务无关或者冗余的特征被删除,简化的数据集常常会得到更精确的模型,也更容易理解。滤波式(filter)方法的特征评估标准直接由数据集求得，而无需学习算法进行反馈，其优点是运行效率高，因此非常适用于集成学习. 假设用于集成的特征选择算法有k种,,抽取产生 m 个子训练集，在每个训练集上利用其中一种特征选择算法选出满足条件的属性作为个体svm训练的输入空间，并训练得到 m个 svm个体，然后对其他的特征选择算法重复执行上述过程，最后将得到的k*m 个子svm的预测结果集成. 特征选择是从一组数量为 D 的原始特征中选出数量为d(Dd)的一组最优特征采用遗传退火算法进行特征选择. 随机生成长度为 D 的二进制串个体其中1 的个数为d 。连续产生这样的个体M 个M 为种群规模其大小影响着遗传算法的最终结果及其执行效率M。特征选择的目的是找出分类能力最强的特征组合需要一个定量准则来度量特征组合的分类能力。度量特征选择算法优劣的判据很多各样本之所以能分开是因为它们位于特征空间的不同区域如果类间距离越大类内各样本间的距离越小则分类效果越好。各种新搜索算法和评估标准都应用到特征选择算法中。如粗糙集算法,神经网络剪枝法,支持向量机的评估标准,特征集的模糊嫡评价,马尔可夫算法等入侵检测系统的数据含有大量的冗余与噪音特征,使得系统耗用的计算资源很大,导致系统训练时间长,实时性差,检测效果不好,引入特征选择算法能够去除高维数据中无用和冗余的信息,保留对分类效果起关键作用的信息,在不影响分类效果的同时减少数据量,降低了数据存储复杂度,减轻系统负荷,提高入侵检测系统的检测速度,增强入侵检测系统的健壮性。入侵检测问题从机器学习的角度看实际上是一个分类问题,分类器的性能不仅与分类器设计算法有关,而且与选择的特征子集有关。一个高度相关的特征子集可有效改进分类器的性能,因而特征选择(属性约简)具有重要的理论意义和应用价值。集成学习(Ensemble Learning)是通过将一组学习器以某种方式组合在一起可以显著提高学习系统的泛化能力（有监督的分类器集成和半监督的分类器集成）。神经网络集成可以显著地提高神经网络系统的泛化能力,被视为一种非常有效的工程化神经计算方法。然而,实际应用中集成系统的个体弱学习器成员可以是任何学习算法,如最近邻法、贝叶斯方法、神经网络及支持向量机等。从这点上讲,可以说集成学习只是提供了一个广义的框架,针对具体的机器学习问题需要设计具体的集成学习模型。基于遗传算法的特征选择算法中一般选择适配值最高的个体作为特征选择的结果,而抛弃了其他个体。我们设想,是否其他个体也会提供有用的信息,如果在不同的个体(即特征子集)上训练得到不同的个体分类器,然后将这些分类器组合起来,是否会得到很好的集成分类结果。机器学习中的特征选择可定义为:己知一个特征集,从中选择一个子集可以使得评价标准最优。从特征选择的定义可见,在给定学习算法、数据集及特征集的前提下,各种评价准则的定义和优化技术的应用将构成特征选择的重要内容。特征选择作为应用于数据挖掘中消除数据噪声的一种技术,也作为根据某一准则从原有的特征中选择出最优的特征组合实现对数据进行预处理的一种常用手段。选出与结果最相关的特征,排除不相关或者冗余的特征,从而提高判断的准确率。本文运用以具有良好泛化能力的支持向量机的特征选择和集成分类器新技术,在支持向量机分类的基础上,以特征选择和基于特征选择的集成学习方法为主要研究内容,以影响支持向量机性能的主要因素为研究对象,对正则化参数C和核函数参数的选择进行了较深入的研究,并通过对多个成员分类器结果的集成,以进一步提高对数据挖掘的学习泛化能力。在遗传算法优化特征子集的同时,把支持向量机参数混编入遗传算法的遗传假设中,从而实现同步优化特征子集和支持向量机参数。集成学习就是利用有限个学习器对同一个问题进行学习,某样本的输入的输出值是由构成集成的各学习器共同决定的。集成学习方法是通过训练大量的基学习器,然后按照一定的标准选择一部分基分类器进行集成,最终能获得较好的分类效果。使用特征选择对数据进行预处理。采用主成分分析法先对数据进行预处理。由于特征子集大小变化幅度很大,我们可以根据特征子集大小使用不同的搜索策略来搜索特征空间。目前，搜索策略大致分为3种: 完全搜索,启发性搜索和随机搜索。完全搜索就是在事先知道特征子集大小的情况下,