基于深度学习法的视频文本区域定位与区别.docVIP

下载本文档

2
0
约4.72千字
约 8页
2017-10-18 发布于北京
举报
版权申诉

基于深度学习法的视频文本区域定位与区别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于深度学习法的视频文本区域定位与区别　　摘要：通过对视频图像进行快速、准确的文本定位与识别，有利于提高视频信息处理的效率与准确率，采用Gabor滤波器实现在横、竖、撇、捺四个方向上的视频图像的纹理特征的提取，再通过RBM逐层增量深度?W习算法构建深度置信网络，实现对提取的纹理特征图像中文本区域的定位.论文同时研究了利用形态学处理方法和OCR字符库实现对视频图像文本识别的可行性，并分析了识别效果，测试结果表明，本文提出的深度学习算法与形态学字符识别方法相结合，不但能够实现对视频图像文本区域的准确定位，还有利于提高字符识别的效率和准确率。　　关键词：深度学习算法；视频图像；文本区域定位；形态学去噪；字符识别　　DoI：10.15938/j.jhust.2016.06.012 　　中图分类号：TP391.43 　　文献标志码：A 　　文章编号：1007-2683（2016）06-0061-06 　　0.引言　　视频中的文字检测与识别是视频图像检测领域的一项重要研究内容.在复杂背景下，视频文本的准确定位与识别有利于进行视频图像检测，只有准确的视频文本区域的定位，才能提高OcR字符识别系统的文本识别准确率，进而提高基于内容的视频图像的正确检测的效率，对视频定位与检索有十分重要的应用价值，一般的文本定位方法主要包括：边缘特征定位法、笔画宽度定位法、纹理特征定位法、机器学习法等，本文采用2D-Gabor滤波器与深度学习算法相结合的方法，实现对复杂背景视频中文本区域的定位，并研究了基于形态学的视频图像去噪方法，再通过OCR系统实现字符的识别，以提高OCR系统字符识别的准确率。　　1.深度学习视频文本区域定位与识别流程　　本文将深度学习算法理论应用于视频文本区域定位与识别过程，设计了一种基于纹理特征的逐层增量深度学习算法.该算法的处理流程如图1所示.首先，将视频图像通过Gabor滤波器滤波，获得视频图像文本中文字的纹理特征；接着，将纹理特征作为训练样本，利用受限玻尔兹曼机（restricted bolt-zmann machine，RBM）逐层对纹理图像进行增量学习，在学习过程中，用标记样本作为监督数据进行网络微调，构成深度置信网络（deep belief network，DBN），并标记文本区域和背景区域的二值图像；之后，利用形态学方法对二值图像去噪处理，再映射到定位图像上，得到仅包含文本区域而去除背景区域的文本图像，最后，再将图像进行二值化、灰度等后续处理，送入到OCR字符识别系统进行字符识别. 　　2.逐层增量深度学习视频文本定位算法　　2.1视频图像纹理特征的提取　　字符的纹理具有周期性，并且在一定的频率范围内能量相对集中，所以可以利用二维Gabor滤波器对视频图像在不同尺度和方向上进行滤波，Gabor滤波器理论最早由Daugman提出，能够很好地描述对应于空间频率（尺度）、空间位置及方向选择性的局部结构信息。　　鉴于中文字符主要由横、撇、竖、捺4种基本笔画组成，所以Gabor滤波器要求能够在这4个方向上反映中文字符的笔画特征，并且要求能够保证对这4个方向纹理区域的频率分量均有很好的响应。Wang等研究了Gabor滤波器中心频率与汉字的笔画的关系，发现Gabor滤波器的中心频率与周期入成倒数关系，且周期入是笔画宽度η的一半，当笔画的方向与Gabor滤波器的方向处于正交时，Ga-bor滤波器输出最优，因此，可以通过笔画的宽度来确定Gabor滤波器的中心频率，本文中Gabor滤波器所选择的参数为低频中心频率U1，/sub=0.2，高频中心频率U，subh0.4，方向数和尺度数分别为T=4，M=4。　　图2（b）所示为图2（a）原视频图像在横、撇、竖、捺4个方向进行Gabor滤波后的结果.由图2（b）可知，Gabor滤器能够将文字纹理和背景纹理分离，并使文字在横、撇、竖、捺4个方向的纹理信息得到保持，同时背景区域的纹理被有效的抑制。　　2.2深度学习算法基本原理　　深度学习是机器学习研究领域中的一个新问题，其目的在于建立、模拟人脑进行分析学习的神经网络，深度学习算法是由深信度网络（depth be-lief network，DBN）上的一系列受限玻尔兹曼机（re-stricted bohzmann machine，RBM）的概率模型组成.深度学习算法一般描述过程如下：假设有一个系统s，它有n层，S1，S2....Sn设输入为I，输出为o，学习的一般过程表示为：I=S1=S2，…Sn=O，如果输出O等于输入I即输入I经过这个系统变化之后没有任何的信息损失或者损失很小，可以看作基本上保持不变，这意味着输入，经过每一层Si，都几乎没有信息的损失，即任何一层SI，都是原有信息（即输入i）的另