- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
FCM预选取样本半监督SVM图像分类方法
FCM预选取样本半监督SVM图像分类方法
摘要:针对基于拉普拉斯支持向量机(LapSVM)的半监督分类方法需要将全部无标记样本加入训练样本集中训练得到分类器,算法需要的时间和空间复杂度高,不能有效处理大规模图像分类的问题,提出了模糊C均值聚类(FCM)预选取样本的LapSVM图像分类方法。该方法利用FCM算法对无标记样本聚类,根据聚类结果选择可能在最优分类超平面附近的无标记样本点加入训练样本集,这些样本可能是支持向量,携带对分类有用的信息,其数量只是无标记样本的一少部分,因此使训练样本集减小。计算机仿真结果表明该方法充分利用了无标记样本所蕴含的判别信息,有效地提高了分类器的分类精度,降低了算法的时间和空间复杂度。
关键词: 支持向量机; 半监督学习; 预选取样本; 模糊C均值聚类; 图像分类
中图分类号: TP391.41 文献标志码: A
0引言
支持向量机(SupportVectorMachine,SVM)借助统计学习理论和最优化方法解决机器学习问题[1]。该方法已经在众多的模式识别领域得到了成功地运用[2-3]。然而传统的SVM作为一种有监督的学习方法,对样本进行类别标记往往需要耗费大量的人力物力。显然,如果只使用少量的有标记样本进行训练,在一定程度上导致训练不充分,同时在学习过程中没有充分考虑样本之间的几何结构和样本所蕴含的判别信息,因此在一定程度上影响了其对具体模式进行识别的能力。
为了在一定程度上克服传统SVM方法训练不太充分的问题,文献[4]提出了半监督支持向量机(SemiSupervisedSVM,S3VM),该算法的目标函数求解问题是一个凹规划问题,可化为混合整数规划求解,当无标记样本数比较多时,此算法要在可行域内寻找出最优解需要较长的时间,因此不能有效处理大数据集分类。另外,一些基于直推式算法的支持向量机模型先后被提出[5-7],这些方法存在训练速度慢、回溯式学习步骤多以及学习性能不稳定等缺点,因而难以在大数据集分类上推广。S3VM以及基于直推式的支持向量机模型在学习过程中不仅要根据少量有标记样本进行训练,同时还要对无标记样本进行学习,从而在一定程度上避免了传统SVM方法训练不充分的弱??,但和传统SVM一样并没有充分考虑训练样本之间的几何结构和所蕴含的局部判别信息。
为了考虑训练样本之间的几何结构和所蕴含的局部判别信息。Belkin等提出了流形正则化(ManifoldRegularization,MR)框架[8],并在此框架下提出半监督支持向量机:拉普拉斯支持向量机(LaplacianSupportVectorMachine,LapSVM)[8-9],该方法不但继承了传统SVM方法的优点,同时一定程度上克服了训练不充分的缺点,并且在学习过程中充分考虑了样本间的局部几何结构,体现了蕴含在样本中局部的鉴别信息。该方法需要时间和空间复杂度分别为:O((l+u)3)、O((l+u)2)。显然,当无标记样本很多时,需要很大的内存空间和很长的CPU占用时间,甚至引起内存溢出等问题。
由表2的实验结果可知,当标记样本数固定时,增加无标记样本数,两种方法得到的分类正确率均有所提高且标记样本数越多提高越不明显,而运行时间却呈指数形式急剧增加,因此本文方法以及LapSVM(R)方法均是通过加入少量无标记样本进行训练,有效地降低了算法的时间和空间复杂度,而本文方法加入的少量无标记样本是通过预选取含启发信息更为丰富的无标记样本,有效地提高了分类器的分类正确率;当无标记样本数固定时,随着标记样本数的增加,两种方法得到的分类正确率均有所提高,且本文方法分类正确率均高于LapSVM(R)方法。
5结语
本文提出采用FCM聚类算法对全部无标记样本u预选取少量的包含启发信息更丰富的m个无标记样本,再运用LapSVM算法对l+m个训练样本集进行训练得到分类器,从而实现图像分类。实验结果表明,本文方法有效地降低了算法的时间和空间复杂度,而且提高了分类器的分类精度。本文主要解决二分类问题,今后的研究将考虑对多分类问题时如何选择对分类能提供更多启发信息的无标记样本,使得LapSVM算法对多个类别分类时能够基于较少的无标记样本得到有效且高效的半监督分类方法。
参考文献:
[1]VANPANIKV.Statisticallearningtheory[M].NewYork:WileyPress,1998.
[2]PONTILM,VERRIA.Supportvectormachinefor3Dobjectrecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,1998,20(6):673-6
文档评论(0)