一种多重支持向量机在线学习算法研究.docVIP

下载本文档

2
0
约6.78千字
约 13页
2018-06-23 发布于福建
举报
版权申诉

一种多重支持向量机在线学习算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种多重支持向量机在线学习算法研究

一种多重支持向量机在线学习算法研究　　摘要：增量式支持向量机学习算法是一种重要的在线学习方法。传统的单增量支持向量机学习算法使用一个数据样本更新支持向量机模型。在增加或删除的数据样本点较多时，这种模型更新模式耗时巨大，具体原因是每个被插入或删除的样本都要进行一次模型参数更新的判断。该文提出一种基于参数规划的多重增量式的支持向量机优化训练算法，使用该训练算法，多重的支持向量机的训练时间大为减少。在合成数据集及真实测试数据集上的实验结果显示，该文提出的方法可以大大降低多重支持向量机训练算法的计算复杂度并提高分类器的精度。　　关键词：支持向量机；增量式算法；核函数；支持向量　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2014）01-0115-05 　　支持向量机（support vector machine，SVM）是一种基于统计学习理论[1]的机器学习方法。SVM利用核函数代将数据映射到高维空间的特征空间，使得原本在低维空间中不可分类的数据变得可以分类。由于SVM最终决策函数只由少数的支持向量确定，因此计算的复杂性取决于支持向量的数目，而不是样本空间的维数，这在某种意义上避免了“维数灾难”，并使得模型具有鲁棒性。　　虽然SVM是一种基于小样本的学习方法，但在很多实际应用中，很难在学习过程的初期就获得一个较为完备的训练数据集，而且随着时间的推移，数据集的特性也会发生一定的变化，因此很必要对学习机进行增量学习，即随着样本数据的不断进入学习机，调整学习机的模型参数，提高学习机的精度就显得尤为重要。　　增量式SVM学习，即在获取新的样本后，对整个模型进行重新的学习，调整学习机的相关参数，删除无用的历史样本数据，增加新的样本数据，提高训练模型的适应性和精度[2]。文献[3]用支持向量和新样本构成新增量训练集，只需学习一次就可完成模型参数调整。但该方法在增量训练中抛弃了所有的非支持向量样本，且他们的样本处理是单一调整的模式。在文献[4][5]中，增量学习算法考虑了KKT 条件与样本的分布，样本可以批量的进行加载，但该方法训练时间有待进一步的提高。文献[6]中通过选取训??样本的包向量进行增量训练，这种方法可以减少训练数据的多次扫描，提高训练速度，但还需要解决丢失有用信息的导致的历史数据再训练的问题问题。　　本文研究多重增量支持向量机的训练算法。该问题可以描述为：当多个样本点（相对于基于单样本的增量SVM训练而言）被加入或移除SVM训练机时，如何更为有效地调整训练模型的参数。为此，我们借鉴了参数规划问题中的一些方法[3，6]，提出基于参数规划的多重支持向量机更新算法。基于参数规划的训练算法的计算代价为求解在每个断点处的一个线性系统的代价，该代价只与解空间中解路径上的断点数目有关，因此计算复杂度大为降低。　　论文组织如下，第一部分介绍SVM及KKT条件。第二部分中，首先简单介绍基于单个数据的SVM训练模型更新算法，然后介绍本文的多重更新算法。第三部分中，我们使用最为流行的基于单个数据更新的增量SVM训练算法算法包Libsvm[7]（基于SMO算法）作为对比算法，在多个数据集上进行了性能对比。第四部分是论文的总结。　　1 支持向量机及KKT条件　　假设给定一个训练集[S={（xi，yi）}]，i=1，2，...，n，[xi∈X?Rd]是d维空间上的样本点，[yi∈{-1，1}]是样本的类标签空间。支持向量机在样本集[S={（xi，yi）}]上学习如下的一个分类函数：　　[f（x）=ωTΦ（x）+b] （1）　　其中，[Φ（x）]表示一个特征空间的映射。该模型中的参数[ω]和b可以通过求解式（2）的优化问题得到：　　[min 12||ω||2+Ci=1nξi] 　　[s.t. yif（xi）≥1-ξi]，[ξi≥0，i=1，...，n] （2）　　2）式中，[C]是正则化参数。在（2）式中引入拉格朗日乘子[αi≥0]，最优分辨函数[f：Χ→R]可以描述为[f（xi）=i=1nαiyiK（x，xi）+b]，其中[K（xi，xj）]=[Φ（xi）TΦ（xj）]是一个核函数。根据Karush-Kuhn-Tucker最优条件（KKT），可以得到如下的关系等式：　　[yif（xi）≥1 ? αi=0，] （3a）　　[yif（xi）=1 ? αi∈[0，C]，] （3b）　　[yif（xi）1， αi=0}，] （4a）　　[M={i|yif（xi）=1， 0≤αi≤C}，] （4b）　　[I={i|yif（xi）　　[QicΔαc+j∈MQijαj+yiΔb=0， i∈M，] [ycΔαc+j∈Myjαj=0.] （6）　　关于这个线性系统