基于深度学习法的视频文本区域定位与区别.docVIP

基于深度学习法的视频文本区域定位与区别.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于深度学习法的视频文本区域定位与区别   摘要:通过对视频图像进行快速、准确的文本定位与识别,有利于提高视频信息处理的效率与准确率,采用Gabor滤波器实现在横、竖、撇、捺四个方向上的视频图像的纹理特征的提取,再通过RBM逐层增量深度?W习算法构建深度置信网络,实现对提取的纹理特征图像中文本区域的定位.论文同时研究了利用形态学处理方法和OCR字符库实现对视频图像文本识别的可行性,并分析了识别效果,测试结果表明,本文提出的深度学习算法与形态学字符识别方法相结合,不但能够实现对视频图像文本区域的准确定位,还有利于提高字符识别的效率和准确率。   关键词:深度学习算法;视频图像;文本区域定位;形态学去噪;字符识别   DoI:10.15938/j.jhust.2016.06.012   中图分类号:TP391.43   文献标志码:A   文章编号:1007-2683(2016)06-0061-06   0.引言   视频中的文字检测与识别是视频图像检测领域的一项重要研究内容.在复杂背景下,视频文本的准确定位与识别有利于进行视频图像检测,只有准确的视频文本区域的定位,才能提高OcR字符识别系统的文本识别准确率,进而提高基于内容的视频图像的正确检测的效率,对视频定位与检索有十分重要的应用价值,一般的文本定位方法主要包括:边缘特征定位法、笔画宽度定位法、纹理特征定位法、机器学习法等,本文采用2D-Gabor滤波器与深度学习算法相结合的方法,实现对复杂背景视频中文本区域的定位,并研究了基于形态学的视频图像去噪方法,再通过OCR系统实现字符的识别,以提高OCR系统字符识别的准确率。   1.深度学习视频文本区域定位与识别流程   本文将深度学习算法理论应用于视频文本区域定位与识别过程,设计了一种基于纹理特征的逐层增量深度学习算法.该算法的处理流程如图1所示.首先,将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;接着,将纹理特征作为训练样本,利用受限玻尔兹曼机(restricted bolt-zmann machine,RBM)逐层对纹理图像进行增量学习,在学习过程中,用标记样本作为监督数据进行网络微调,构成深度置信网络(deep belief network,DBN),并标记文本区域和背景区域的二值图像;之后,利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像,最后,再将图像进行二值化、灰度等后续处理,送入到OCR字符识别系统进行字符识别.   2.逐层增量深度学习视频文本定位算法   2.1视频图像纹理特征的提取   字符的纹理具有周期性,并且在一定的频率范围内能量相对集中,所以可以利用二维Gabor滤波器对视频图像在不同尺度和方向上进行滤波,Gabor滤波器理论最早由Daugman提出,能够很好地描述对应于空间频率(尺度)、空间位置及方向选择性的局部结构信息。   鉴于中文字符主要由横、撇、竖、捺4种基本笔画组成,所以Gabor滤波器要求能够在这4个方向上反映中文字符的笔画特征,并且要求能够保证对这4个方向纹理区域的频率分量均有很好的响应。Wang等研究了Gabor滤波器中心频率与汉字的笔画的关系,发现Gabor滤波器的中心频率与周期入成倒数关系,且周期入是笔画宽度η的一半,当笔画的方向与Gabor滤波器的方向处于正交时,Ga-bor滤波器输出最优,因此,可以通过笔画的宽度来确定Gabor滤波器的中心频率,本文中Gabor滤波器所选择的参数为低频中心频率U1,/sub=0.2,高频中心频率U,subh0.4,方向数和尺度数分别为T=4,M=4。   图2(b)所示为图2(a)原视频图像在横、撇、竖、捺4个方向进行Gabor滤波后的结果.由图2(b)可知,Gabor滤器能够将文字纹理和背景纹理分离,并使文字在横、撇、竖、捺4个方向的纹理信息得到保持,同时背景区域的纹理被有效的抑制。   2.2深度学习算法基本原理   深度学习是机器学习研究领域中的一个新问题,其目的在于建立、模拟人脑进行分析学习的神经网络,深度学习算法是由深信度网络(depth be-lief network,DBN)上的一系列受限玻尔兹曼机(re-stricted bohzmann machine,RBM)的概率模型组成.深度学习算法一般描述过程如下:假设有一个系统s,它有n层,S1,S2....Sn设输入为I,输出为o,学习的一般过程表示为:I=S1=S2,…Sn=O,如果输出O等于输入I即输入I经过这个系统变化之后没有任何的信息损失或者损失很小,可以看作基本上保持不变,这意味着输入,经过每一层Si,都几乎没有信息的损失,即任何一层SI,都是原有信息(即输入i)的另

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档