- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于CNN的光学字符识别算法研究
《机器视觉》研究生课程论文
题目:基于CNN 的数字光学字符识别
姓 名 向灿群
学 号 2015112011
院 别 信息与通信工程
班 级 信息XY 15-1
指导教师 郭龙源
完成时间 2016 年6 月21 日
1. 引言
自 从 1929 年 Tausheck 取 得 光 学 字 符 识 别 (OpticalCharater Recognition)专利
[1]
以来 ,经过近一个世纪的发展,OCR 已经成为当今模式识别领域中最活跃的研究内容之
一。它综合了数字图像处理、计算机图形学和人工智能等多方面的知识,并在计算机及其相
关领域中得到了广泛应用。OCR 在人机交互中实际充当了人机界面的作用。目前,以
Windows 和鼠标为主的图形用户界面虽然给用户使用计算机带来了很大的便利,但其实质
与命令行时代相比并没有本质变化。随着信息化程度不断加深,传统界面日益成为数据交流
的“瓶颈” 。OCR 由于更容易被人们接受、掌握,近几年来,它同语音识别、行为识别等一起
日益成为人们研究的焦点。IBM、Motorola 、HP 和Microsoft 等公司都陆续展开了这方面的
[2]
研究 。微软公司最新推出的办公套件—Microsoft OfficeXP 中,不仅加强了原有对手写输入
的支持,还新增加了光学字符识别(OCR)的工具组件。字符识别产品的广泛应用推动了模式
识别等相关理论的发展,促进了计算机应用的普及。经过几十年的发展,现在OCR 技术取
得了很多进展。无论是国内和国外都有了相对成熟的 OCR 的产品。传统的OCR 产品主要
解决文字自动录入的问题,现代的OCR 产品实际上已经成为了沟通现实世界和计算机世界
[3,4]
的一座桥梁 。在对现有识别技术进行分类的基础上,本文提出了基于CNN 的光学字符识
别算法,与传统识别技术相比识别率具有很大的改进。
2. 图片预处理
计算机视觉处理采集到的二维字符图像的大体流程如下:
字符图像 预处理 定位与切割 字符识别
图1 光学字符处理流程
如上面流程所示,场景通过光学成像系统和数字采集系统转化为数字图像。其中,光学
成像系统包括光学镜头(常规光学镜头与自聚焦透镜阵列镜头)和图像传感芯片(CMOS、
CCD );数字采集系统主要包括数字式图像采集卡。数字图像通过图像处理算法的定位并截
取出感兴趣区域(region of interest, ROI );在感兴趣区域基础上,根据具体任务要求,继续
分割字符模块提取出相关结构特征;最后,通过模式匹配算法识别与描述,完成光学字符识
别中图像处理任务。
2.1 图像灰度化
一般我们从摄像机获取的图像都是RGB 图像,也就是彩色图像。但是RGB 图像中具
有很多不同颜色的信息,这样直接进行车牌定位的话会占用较多的系统资源,导致图像处理
效率低,而且彩色图使得设计车牌定位的算法比较复杂,所以在整个系统中彩色图像中的很
多信息都是我们不需要的,所以我们首先要将彩色图像进行灰度转换,只保留彩色图像的亮
[5]
度信息 。RGB 图像其实可以看成是3 种灰度图像叠加而成,即彩色图像每个像素的颜色
由三个分量来决定(三原色调色),事实上RGB 图像的存储就是由三个矩阵构成的。R,G,B
均在[0,255] 中取值,然后按一定比例取值相加,最后生成的灰度图像值也应在[0,255] 内。
图像灰度化的过程,即是由 R,G,B 三个分量转化为一个量的过程。通俗的讲就是对图像的
RGB 三个分量进行加权得到最后的灰度值。
其加权系数一般是按照人眼对颜色的敏感度来取值的,通常三种颜色中人眼敏感度最高
的是绿色,敏感度最低的是蓝色,所以一般将绿色的分量分配较大的值,而对蓝色分配较小
的值。本文使用加权平均法灰度化图像,计算公式如式(1) 。
文档评论(0)