基于多宽度高斯核支持向量机特征选取算法研究.docVIP

下载本文档

6
0
约8.05千字
约 16页
2018-08-29 发布于福建
举报
版权申诉

基于多宽度高斯核支持向量机特征选取算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于多宽度高斯核支持向量机特征选取算法研究

基于多宽度高斯核支持向量机特征选取算法研究　　摘要：支持向量机（SVM）作为一种机器学习分类算法应用广泛，但在处理高维度数据集时往往会由于特征维数较多遇到算法分类速度慢且容易陷入局部最优等问题。为了提高支持向量机的性能，提出一种基于多宽度高斯核（GKMW）的支持向量机特征选取算法FSG。FSG算法将泛化能力更强的多宽度高斯核函数引入支持向量机中代替传统的高斯核函数，利用多宽度高斯核函数能体现各个特征对分类贡献程度不同且能区分样本中各个特征重要性的特点，以多宽度高斯核函数的参数优化结果为基础进行特征选取。利用特征选取后的特征子集在多组标准UCI数据集上分类实验，实验结果表明所提算法性能优于有代表性的特征选取法。　　关键词：多宽度高斯核；支持向量机；特征选取；基因表达式编程　　DOIDOI：10.11907/rjdk.181012 　　中图分类号：TP312 　　文献标识码：A 文章编号：1672-7800（2018）002-0080-06 　　0 引言　　大数据时代下数据规模庞杂，特征选取在处理高维度数据集时是一项很重要的前置处理工作，即为一种依据可靠的准则去挑选最佳特征的方法。特征选取将有用的特征保留，移除对分类相关性较低的特征，以分辨哪些特征是人们所需要且有助于进行分类的，以此来决定维度的重要性，并希望使用最佳特征组合所得到的分类效果能接近使用全部特征所得到的分类效果，而只使用最佳特征组合不仅能降低特征空间的复杂度，且能加快分类速度提高分类性能[1]。　　特征选取已被应用到许多不同领域，目前在自动文本分类处理、人脸或字符识别、医学图像处理等高维度数据集中均有大量应用[2]。常用的特征选取方法有信息增益（Information Gain，IG）[3]、卡方检验（Chi-square test，CHI）[4]、互信息（Mutual Information，MI）[5]等。然而上述方法均是在原空间中找出具有最大线性分散量或分离量的特征，而且支持向量机（Support Vector Machine，SVM）中传统的高斯核函数存在局限性，其唯一可调宽度参数决定了高斯核函?档姆夯?规模，同时也限制了支持向量机的泛化性能。高斯核的这种单宽度性使得在样本的稀疏区域会产生欠学习现象，而在样本的稠密区域会产生过学习现象，并直接造成了对样本分布的错误估计[6]。针对上述问题，本文提出一种基于多宽度高斯核的支持向量机特征选取算法――Feature Selection in Support Vector Machine Based on Gaussian Kernel with Multiple Widths（FSG）算法，将泛化能力更强的多宽度高斯核函数引入到支持向量机中代替传统的高斯核函数，由于多宽度高斯核函数的参数组合与特征向量一一对应，因此利用多宽度高斯核函数能体现各个特征对分类贡献程度不同，且能区分样本中各个特征重要性的特点，在多宽度高斯核函数参数优化结果的基础上，根据参数组合的大小对特征进行选取，以此找出具有最大非线性分离量的特征子集，最终达到更好的分类效果，同时减少训练时间以提高效率。利用特征选取后的特征子集在多组标准UCI数据集上进行分类实验。　　1 相关概念　　1.1 支持向量机　　支持向量机（SVM）是由Vapnik等[7]从结构风险最小化概念中所提出的一种基于统计学习理论的分类算法。支持向量机的基本原理是为了寻求最佳的线性分类面，SVM通过定义适当的内积函数进行非线性变换，把原始数据空间变换到某一高维的特征空间，并在高维的特征空间中利用超平面对样本进行准确分类，同时保持分类的间隔最大。　　其中，w为权向量，b为分类阈值，φ是一个非线性的映射函数，ξi为松弛变量，是分类错误的容许量。满足以上条件的超平面中分类间隔最大的就是最佳分类面（见图1）。　　整理后的最佳分类面问题可以表示成如下约束优化问题，即在式（2）的约束下，求函数：　　其中C为惩罚参数，当C值变小时，分类错误的容许量较高，分类精确度较低；反之，当C值变大时，分类错误的容许量较低，则分类精确度较高。最终可以得出最优分类函数：　　式（4）中，ai是二次规划优化问题所求解的拉格朗日因子，N为支持向量数。　　对于线性不可分问题，可采用在定义的空间中引入核函数K（xi，x），把低维空间变换到高维空间，对应的判别函数为：　　由此可以看出，核函数及其参数的变化是决定SVM分类器泛化能力的关键因素，所以挑选适当的核函数及其参数成为SVM分类效果的保障。　　1.2 多宽度高斯核函数　　多宽度高斯核函数形式如下[8]：　　多宽度高斯核函数可以针对每一个维度，调整不同的宽度，但如果每个维度的σ都相等，则多宽度的高斯