- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SVM算法及其在多类字母图象识别中的应用
摘要:支持向量机是一种新的统计学习算法,其学习原则是使结构风险最小,与经典的学习方法的经验风险最小原则不同,这使得支持向量机具有很强的泛化能力。因为支持向量机算法是一个凸二次优化问题,能够保证所求的局部最优解就是全局最优解。目前,研究的绝大多数是两类问题。然而,即使我们能够将两类问题正确分类,也不能意味着实际应用中多类分类问题的解决。在这篇文章中,我们介绍了支持向量机算法,并且通过多类字母图象分类问题说明支持向量机算法在多类分类问题中的应用。
关键词:支持向量机;核函数;字母图象;余类
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)08-1pppp-0c
1 引言
基于数据的机器学习是现代智能技术中十分重要的一个方面,主要研究如何从一些观测数据(样本)出发得到目前尚不能通过原理分析得到的规律,利用这些规律去分析客观对象,对未来数据或无法观测的数据进行预测。一项颇为有效的技术-支持向量机(Support Vector Machines,简称SVM),近几年来逐渐成为机器学习领域的研究热点。支持向量机是美国贝尔实验室V.Vapnik针对分类和回归问题,为适合小样本学习问题而提出的通用学习算法 [1],它根据VC(Vapnik-Chervonenkis)理论,基于结构风险最小(Structural Risk Minimization,SRM)原理 [1],而非经验风险最小化(Empirical Risk Minimization,ERM)原理,从而能够兼顾训练错误和泛化能力,开辟了机器学习算法的新天地。目前绝大多数讨论仅局限于用SVM解决两类问题。然而,两类分类问题的解决并不意味着多类分类问题的解决。对于多类分类问题,我们提出基本训练样本集和训练样本集两个层次的概念,通过不断调节基本训练样本集,求得对训练样本集的最优决策函数。对高维多类分类问题具有很强的实践价值。本文通过字母图象识别的实际多类分类问题的解决,说明SVM算法的基本原理以及在多类分类问题中的应用。
2 支持向量机
SVM 是一种基于结构风险最小化的分类器,通过解二次规划问题,寻找将数据分为两类的最佳超平面。它的核心内容是:对于输入空间中非线性可分问题,选择一个适当的映射,将输入空间中的样本点映射到一个高维特征空间,使得对应的样本点在该空间线性可分,而且通过对核函数的深入研究,在解决策函数过程中的计算仍在原空间进行,大大降低了在映射后的高维特征空间计算的复杂性。关于SVM的详细介绍可参考文献[2-4]。
2.1 线性可分支持向量机
2.1.1 线性可分
4 实验及其结果
本文的多类字母图象分类问题的实验数据数据库来自UCI数据库( / ~ mlearn / databases)。软件环境:Matlab/WinXP,所选用核函数就是上文介绍的 Gauss 径向基核函数,总共有 3864 个样本(其中字母A的样本790个,其中字母B的样本766个,其中字母C的样本 736 个,其中字母 D 的样本 805个,其中字母E的样本768 个,每个样本采集了包括水平像素均值,垂直像素均值等 16 个特征,关于特征采集的详细介绍参见/~mlearn/databases的英文文档,我们随机地选取一部分作为训练样本集,第一次实验时我们从每一类中随机选取400个样本组成训练样本集,基本训练样本集从每一类的已选取的400个样本中随机选取100个组成,此时基本训练样本集有500个样本,训练样本集有2000个样本,其余的作为测试样本集。在调优过程中,为了更能代表整个余类的情况,减少计算的量,我们将训练样本集由第一次实验时每一类的400个样本随机选取300个样本重新组成,基本训练样本集从已选取的300个样本随机选取150重新组成,其余的均作为测试样本集。此时基本训练样本集有750个样本,训练样本集有1500个样本,其余的作为测试样本集。运用我们的调优方法反复实验以确定最后的对于训练样本集最优的决策函数集。为了对比说明问题,我们将每次所得到的决策函数集应用于测试样本集。其结果如下表所示:
通过以上表格,我们发现通过这样的调优过程不仅得到对于训练样本集最优的决策函数集(正确率已达100%),而且发现这样的对训练样本集最优的决策函数集具有很强的泛化能力(正确率已达98.4%)。
5 讨论
(1)本文的研究中解决了一个五类字母图象识别的分类问题,对解决多类分类问题提供了很好的例子,可推广到更多类问题的研究。对原问题的二十六个字母图象的识别的多类分类问题的研究将是下一阶段的研究重点。
文档评论(0)