《手写数字识别的一种新的视觉模型》.docVIP

《手写数字识别的一种新的视觉模型》.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
手写数字识别中的取取线性可分特征的一种新的视觉模型 简介 我们使用成熟的生物视觉模型构造一个新的视觉模型用于手写体数字识别。通过大量的数据(MNIST数据似集)进行训练后显示,本模型提取的特征是线性可分的。仅使用线性分类器,虽然我们的模型相对比较简单,但是在相同的数据集进行测试是,我们的模型表现得更好。 1 引言 在近十年中,手写数字的识别一个个非常活跃和发快速发展的领域。在近几年中了版了大量关于特征提取和分类的技术文献,因此关于此主题的文献有很多。特征提取取范围从何特征到曲线斜率特征,而分类技术从模板匹配到神经网络多有很多种。一些是来源于生物学基础,还有一些则是基于统计学或几何的特征。 特征提取主要有两种方法。传统的方法是手工的特征提取,与此不一样的是通过一个特征提取算法对原始数据进行学习以此发现数据中的固有特征。每一种方法都有它自己的优点的缺点。在前一种方法中,主要的困难在于确定特征的分类,以及特征提取的一种稳定可靠的方式。对于特征的自动学习,只有在每一个分类都拥有大量的样本才可行,因此对于日文或中文字符,它可能不适用,因为每一个分类没有那么多的样本。此外,在自动特征提取模型中,比如人工神经网络,它通常很难分析或辨认特征,并且还会受到自身激活函数和学习算法的约束。比如,如果特征通过非可微的或非连续的函数提取,则它将不能学习梯度下降的数据。这就是为什么,尽管有可用的特征提取算法,但是特征提取领域的研究仍然很活跃。 我们基于如下原则着手开发一套用于手写数字识别的视觉系统: (1) 生物学基础 这是用在计算机视觉中一个古老又成功的原则。毕竟,生物视觉系统是我们知道的最稳定的识别系统,因此它值得我拉去效访。在我们的系统中,我们尝试覆盖尽可能多的当前已知的生物学系统中的特征。 (2) 线性可分性 特征提取的一个关键要求 是减少分类中的变化,提高类间的变化,一衡量的性的标准就是线性可分性。通过使训练数据线性可分,我们只需要使用一个简单的快速进行训练和不容易出现问题(比如过拟合,本地最小值)的线性分类器过行训练。在手写数字识别中,除非数据非常小,否则要取得个线性的数据是非常难的,因为手写数字的样式太多。非混淆视听上有意义的是我们的系统在60000数据集的情况下达到了此要求。 (3) 清晰的语义 知道特征所代表的意义不仅对目的的说明很有帮助,而且可以促进进一步的分析。通过显示的的提取很明确的特征,我们的模型能表达出明确的意义。 2 发展中的模型 与传统的模式识别系统一样,我们的模型由两个部分组成:从图片中提取特征向量的特征提取器,能够通过特征向量确定其输出分类的可训练分类器。 特征提取的一个关键的步骤是在前面所提到的原则下决定要提取哪些特征。生物视觉系统以它能提取大量的空间特征而为人所知,比如:边、线、角、长度和宽度。我们选择提取边和方向角,因为与此相关的领域很多。此外,可视化系统能区分明亮和灰暗的特征,正如关于在非中心及偏离中心的文献中所证明的那样。因此我们选择实现一个双通道的系统。下面的小节详细介绍了特征提取的过程。 2.1 特征提取 空间特征通过几个简单的步骤从原始图像中提取。如下图: 上图是特征提取过程。 原始图像是一个用I标记过的二维的图片,图片在坐标(x,y)的灰度值由I(x,y)给出,它的范围从0到时最大灰度值之间变化,灰度值是0代表背景。原始的输入数据都会进行单位化以便计算和,它对应于本视觉系统中通道的开与关。和由如下式计算: 我们发现双通道系统与单通道系统在分器的精度上有一定的优势。 然后通过一个较小的值进行卷积的计算。这相当于有一个在本地可接受的区域,此发现来源于生特征视觉系统,即基本的特征从闭合的拓扑结构中的一个小的子集中提取。这使网络能够利用空间拓扑结构检测图像中不同位置中具有相同空间的特征。我们用Qh来表示卷积映射,使用指定相应的掩码或内核可接受圆形区域(半径为2)。卷积从如下两种方式进行计算: 每个卷积和还要经过一个分段线性函数f进行计算。所有这些特征映射的值都是非负值,它表示了此特征值的重要性。分段线性函数的输出值再乘以中央像素值。我们发现这是一个减小错误边和角的即简单又有效的方法。在实际情况中,只有一个卷积需要传递掩码,因为: 我们使用的16位模板掩码如下图所示: 这些模板掩码是视觉皮层中简单超复数可接受领域中和简单模型,它们用于检测不同方向上的边缘和结束点。此模型也可以通过合适的中心和半径使用高斯线性组合函数完成。但是我们发现使用整数掩码代替会精确。 使用终端抑制滤波器来检测打开通道的凸角,相反也使用它们在关闭通道检测凹角。众所周知如果移除角或曲率信息会降低人工识别的精度,但是如果移除线信息则不会。事实上我们发现角是比线更重要的特征,如是包含角信息识别的效果会更好。 功能聚合和像素欠

文档评论(0)

liangliangyajia + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档