支持向量机性能分析及改进.doc

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
支持向量机性能分析及改进

1 绪论 1.1 课题背景 当今随着信息技术和信息网络的飞速发展,信息产生和传播的速度迅速提高,各种各样的机构每天都在产生并积累着大批量的数据。伴随海量数据而来的问题是信息过载和信息污染,这极大地影响了人们对信息的有效利用,因此,从大量数据中发现有用知识的数据挖掘(Data Mining),就成为一个十分迫切的富有挑战性的研究课题。基于数据的机器学习(Machine Learning)是数据挖掘技术中的重要内容,机器学习研究从观测数据出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。其重要理论基础之一是统计学。统计学习理论(Statistical Learn-ing Theory SLT),专门研究实际应用中有限样本情况的机器学习规律,并发展了支持向量机(Support Vector Machine SVM)这一新的通用学习方法,由于它基于结构风险最小化(SRM)原理,而不是传统统计学的经验风险最小化(ERM),表现出很多优于已有方法的性能,迅速引起各领域的注意和研究兴趣,取得了大量的应用研究成果,推动了各领域的发展。汉字识别一直是模式识别最重要的研究领域之一。针对汉字的结构特点,许多学者分别从预处理和特征提取的角度提出了许多方法。从预处理的角度,通过对汉字点阵采取某种非线性变换,矫正手写汉字变形,以减少类内方差。从特征提取的角度,利用汉字固有的笔划构成特征提取手写汉字的笔划以及笔段信息。但是,由于汉字的结构复杂性,以及不同人书写变形的不确定性,到目前为止,手写汉字的识别性能仍然不能令人满意。神经网络由于其较强的曲线拟合和模式分类能力,在汉字识别中得到广泛的应用。经过多年的研究,已经取得了大量成果。但对区分手写得非常近似的汉字,仍然缺乏有效的手段。采用汉字笔画及字型信息的特征,即多特征的方法,可以用于相似字的识别,但效果不能令人满意。人工神经网络的方法在小规模分类中是比较有效的,但人工神经网络学习算法有其固有的缺点,如网络结构的确定尚无可靠的规则, 算法的收敛速度较慢,且无法保证收敛到全局最优点。 用支持向量机解决手写体相似字识别问题的方法,已经取得较好的效果。本文提出了一种通过修正核函数来提高支持向量机分类性能的方法,其思想是尽量放大分离曲面附近的局部区域,而保持其他区域变化不大。考虑到支持向量几乎总是出现在分离曲面附近,故设法放大支持向量的局部区域,通过将原来的样本点映射到一个高维空间,以拉大分类间隔的距离,从而达到提高其分类性能的目的。 2.1 支持向量机的研究研究2.2 支持向量机的基本思想 从观测数据中学习归纳出系统运动规律,并利用这些规律对未来数据或无法观测到的数据进行预测一直是智能系统研究的重点。传统学习方法中采用的经验风险最小化准则(empirical risk minimization, ERM)虽然可以使训练误差最小化,但并不能最小化学习过程的泛化误差。ERM不成功的例子就是神经网络的过学习问题。为此,Vapnik提出了结构风险最小化准则( structural risk minimization, SRM),通俗地说就是通过对推广误差(风险)上界的最小化达到最大的泛化能力。Vapnik提出的支持向量机( support vector machine, SVM) 就是这种思想的具体实现。支持向量机的基本思想是在样本空间或特征空间,构造出最优超平面,使得超平面与不同类样本集之间的距离最大,从而达到最大的泛化能力。 SVM方法,取得了较大的成功。在近几年内,有关SVM的应用研究得到了很多领域的学者的重视,在人脸检测、验证和识别、说话人/语音识别、文字手写体识别、图像处理、及其他应用研究等/方面取得了大量的研究成果,从最初的简单模式输入的直接SVM方法研究,进入到多种方法取长补短的联合应用研究,对SVM方法也有了很多改进。SVM方法的研究,包括算法本身的改进和算法的实际应用,都陆续提了出来。以下是其中主要的研究热点。 (1)改进训练算法 由于SVM对偶问题的求解过程相当于解一个线性约束的二项规划问题(QP),需要计算和存储核函数矩阵,其大小与训练样本数的平方相关,因此,随着样本数目的增多,所需要的内存也就增大,例如,当样本数目超过4000时,存储核函数矩阵需要多达128M内存;其次,SVM 在二次型寻优过程中要进行大量的矩阵运算,多数情况下,寻优算法是占用算法时间的主要部分。通常,训练算法改进的思路是把要求解的问题分成许多子问题,然后通过反复求解子问题来求得最终的解,方法有以下几种: 1 块处理算法(chunking algorithm) 它的思想是将样本集分成工作样本集和测试样本集,每次对工作样本集利用二项规划求得最优解,剔除其中的非支持向量,并用训练结果对剩余样本进行检验,将不符合训练

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档