- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SVM汉字识别方法特征分析
基于SVM汉字识别方法特征分析
摘要:支持向量机(SVM)是在统计学习理论的基础上发展而来的一种新的模式识别方法,在解决有限样本、非线性及高维模式识别问题中表现出许多特有的优势。本文尝试将SVM用于相似汉字的识别,并通过实验比较了弹性网格特征和结构特征点在汉字识别中的效果,结果表明,特征点比弹性网格特征更有利有于文字的识别。
关键词:支持向量机 文字识别
中图分类号:TP391 文献标识码:A 文章编号:1007-9416(2011)10-0154-02
在人类浩瀚的历史长河中,文字是传承文明的一个重要手段,大量的人类文化瑰宝通过文字代代相传,即使在信息化的今天,一些重要的信息也仍然要以文字资料留存。为了方便这些资料的使用,我们需要将这它们输入计算机去进行各种各样的处理。文字识别是一种高速、自动的文字录入手段,它在文字信息处理、办公自动化、邮件分拣、身份验证、机器翻译和人工智能等领域,都有着重要的理论和实际意义。
文字识别中需要解决的两个问题:如何表示输入模式和如何对模式进行分类[1][2]。在模式分类方面可用统计识别方法、句法方法、人工神经网络、小波分析和随机模型等方法,本文将采用支持向量机(Support Vector Machine,简称SVM)方法,SVM是由V.N.Vapnik于1995年在统计学习理论的基础上提出的一种新的模式识别方法[3],它在解决模式识别中非线性及高维识别问题中有着独特的优势和良好的应用前景;在文字的表示输入模式方面,有多种文字特征表示方法[4],本文主要考查了文字的网格特征和结构特征点。实验表明,在SVM识别方法中,结构特征点比网格特征更有利于文字的识别。
1、文字识别模型
文字识别系统的基本结构如图1所示,整个识别系统由两个阶段组成:学习阶段和识别阶段。在学习阶段中,通过研究训练字符样本集,确定每一字符类别的标准样本建立样本库。在学习阶段中所确定的样本库是用来对未知模式分类的,即供识别阶段使用的。在识别阶段中,将待识别字符经过光电转换后,送入主机;经过预处理,再按设定的特征进行字符的特征提取;然后,将待识别字符的特征的学习阶段中所确定的标准样本的特征进行比较判决,得出识别结果;并把结果送至输出设备上。
2、基于SVM的分类识别器
分类识别器是整个系统的核心,我们采用支持向量机算法(Support Vector Machine,SVM)来构造分类识别器,SVM是一种能在训练样本数很小的情况下达到很好分类推广能力的学习算法,它能做到与数据的维数无关。SVM方法的基本思想是来源于Vladimir N.Vapnik提出的结构风险最小化(Structure Risk Minimization)原理,通过最大化分类间隔或边缘(Margin)尽量提高学习机的泛化(Generalization)性能。
SVM方法是从线性可分情况下的最优分类面(Optimal Hyperplane)提出的,所谓最优分类面就是要求分类面不但能将两类无错地分开,而且要使两类的分类空隙(margin)最大,过两类样本中离分类面最近的点且平行于最优分类面的超平面上的训练样本就称为支持向量(Support Vectors)。
设样本集(),,,。在线性可分情况下,则应能找到权向量,使两类间隔最大(即:最小),同时满足
SVM分类问题就化为,通过对训练样本的学习,求得使
取最大值的最优解,这里,是Lagrange系数。最终的分类函数为
由于非支持向量对应的均为0,因此(3)式中的求和实际上只对支持向量进行,而是分类的阈值,可以由任意一个支持向量用式(1)求得。
支持向量机的一个特点就是引入了核函数,核函数巧妙地解决了在低维空间中不线性可分的问题。若函数满足Mercer条件,则其中表示一种映射,,是比,更高维的向量,其具体形式可不必知道。用内积代替最优分类面中的点积,就相当于把原特征空间变换到了某一个新的特征空间,对应分类判别函数式也变为:
而对应算法与计算量并无变化。支持向量机常采用以下四种的核函数:
线性核函数: (5)
多项式核函数: (6)
径向基函数(RBF): (7)
Sigmoid函数: (8)
虽然SVM分类算法最初只用于二值分类,但也可将SVM用于多类问题。其基本思想是通过组合多个二值子分类器实现对多值分类器的构造,常见的构造方法可以分为一对一和一对多两种。一对一方法需要构造k(k-1)/2个分类器,每个分类器训练两种不同类别的数据,在分类中使用投票策略;一对多方法构造k个分类器,第i个分类器的训练数据是第i类的数据做为正例,其它类的数据做为反例。该方法为每个类构造一个分类器,第n个分类
文档评论(0)