PSVM并行支持向量机.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PSVM并行支持向量机

PSVM:并行SVM 摘要 支持向量机(SVM)有着很强大的功能,在数据挖掘领域得到了很广泛的应用。但SVM同样也存在一些问题,其中很显著的一点就是当训练样本量很大时,SVM的时间复杂度和空间复杂度都会变得很高。所以,近年来在各类研讨会以及出版物中,人们越来越多地将目光集中在SVM的可扩展性上,也提出了很多关于SVM的并行算法,这些方法充分利用现阶段硬件的一些新特性,在不同程度上提高了SVM的性能。 本文主要讨论关于SVM的并行形式(parallel SVM:PVSM),PSVM对于降低SVM的空间复杂度以及时间复杂度有着很好的效果。 关键词:支持向量机 并行算法 ICF IPM 1.引言 SVM算法在占用存储和计算时间方面,都存在着很大的可扩展性问题。为了解决这个问题,一种并行支持向量机算法(PSVM)出现了。PSVM算法解决了这两方面的问题:1)利用一种基于列的矩阵分解方法减少了SVM占用的存储空间;2)利用并行的IPC算法求解最优化问题,提高了SVM的执行速度。 下面本文就详细介绍一下PSVM算法。 SVM算法原本是这种形式:给定一个训练数据集,此处是观测到的向量,是的类标签,n是的元素数,而我们就可以利用这个来训练一个二分类器。SVM的目标就是在再生核空间v:储存在本机的Q矩阵对角线元素 k:循环次数 :第i个训练样本 M:机器编号, 机器c的列编号, 1: 2: 通过round robin算法在某台机器上存储 3: 4:Q的一部分对角线元素,可由存储在本地的得到 5:初始化0号机为主机 6: 7: 每台机器选出本地的枢轴量,即v的最大元素: 记录下枢轴量的下标,也就是的列号: 8: 主机收集所有的和。 9: 主机选出全局最大枢轴量,及其列号: 10: 主机广播和 11: 将主机变更为机器 12: 主机计算 13: 主机广播枢轴样本和枢轴列 14: 每台机器计算 15: 每台机器更新本地的向量v: 16: 17: 当把p设为时,ICF误差几乎可以忽略不计。 完成PICF,我们就将SVM的空间复杂度由降到了,当p远小于n是,性能提升是非常显著的。 2.2并行内点法(PIPM) 并行内点法(PIPM)是PSVM真正的求解方法。其实质是牛顿梯度法,迭代地寻找函数极值。其每一步迭代如下: (笔者注:通过翻阅大量资料,这里的即是。) 由于第一步已经将矩阵H分布在机群上,所以PIPM广播和,就可以达到计算任务的并行。 在迭代中,最复杂的一步就是与向量的乘法,对于这个问题可以有以下解决方法: 矩阵D为对角矩阵,做乘法要简单很多。而需要注意的一点是对又做了一次不完全乔列斯基分解,转化为的形式,方便计算。 PIPM使得SVM的时间复杂度由降到了。 完成PIPM迭代之后,就完全已知了。从而可以得到判别函数: 这里的b可以通过已知的训练样本,比较相应的和y,得到不同的b值,最后用所有b值的算术平均作为判别函数中的b值。 3.总结 PSVM通过PICF和PIPM两个算法解决了传统SVM空间复杂度和时间复杂度过高的问题,充分利用现阶段设备的优良性能,将SVM问题分解到多机系统上;同时原理简单,容易实现。可以说PSVM让SVM的性能上了一个台阶,使得他能处理的问题更多、需求的空间更少、完成的速度更快。 有研究结果表明,PSVM比公认最好的支持向量机算法LIBSVM性能更好,同时也有着很高的正确率。 可以说,SVM的并行化,是今后数据挖掘领域的必然趋势。甚至不仅仅是SVM,各种算法的可扩展性,也必将成为今后学界关注的热点。所以本文所说的PSVM算法,还是很有理论和现实意义的。

文档评论(0)

xjj2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档