视频图像中文本检测和提取技术研究.docVIP

下载本文档

6
0
约3.29千字
约 6页
2017-03-03 发布于北京
举报
版权申诉

视频图像中文本检测和提取技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

视频图像中文本检测和提取技术研究.doc

视频图像中文本检测和提取技术研究　　摘要：近年来，随着宽带网络技术、新型多媒体技术和信息通信技术的飞快发展，我们步入了一个崭新的互联网时代。面对日益增长的视频和图像资源数据，如何有效快速的在海量的数据中检索和访问到我们所需要的信息变得十分有意义。视频资源中包含丰富的语义信息和视频关键内容，为此，对视频图像中文本检测和提取成为本文研究主题。　　关键词：数学形态学；文本定位；自适应阈值分割；字符识别；模板匹配　　一. 引言　　近些年来，科学技术的更新速度不断加快，科学方法日益创新。与此同时，多媒体数据库和多媒体信息检索的发展使得视频、音频和图像在我们的生活中扮演着越来越重要的角色。面对海量的视频和图像资源，有效快速的在海量的数据中检索和访问[1]到我们所需要的信息变得十分有意义。正在此背景下，解决上述问题产生的视频图像文本检测成为热点，因此本文开始对此展开研究。　　二. 视频图像中文本分类　　视频图像中的文本根据是否进行过后期制作所嵌入的文本或者根据图像的层次和维数可将其分为场景文本和人工文本（也称叠加文本或图形文本）两大类。　　场景文本是被摄影机或摄像机随当时场景捕获到的文本，场景文本存在于场景中，是场景的一部分。如汽车车牌、交通路标、商店名称、街道指示牌等等。　　人工文本是在后期制作嵌入的文本图形，在编辑阶段被整合到视频图像中。这类文本主要有新闻视频中标题纲要和时间，影视作品中的人物对白字幕、旁白字幕、片头和片尾；广告宣传和体育赛事中直播的比分信息等等。　　三. 视频图像中文本的特点　　通过分析我们得知视频图像有如下几个方面的特性：　　1.几何特性：　　（1）字体大小：　　视频图像中字体大小不一，但在理想过程中，视频图像内的文本不会超过屏幕的一半范围。视频中的文本，由于背景的动态干扰和时间的局限，文本大小一般不会太小。　　（2）排列方式：　　文本可以出现在视频帧图像的各个地方，可以按任意方式排列，但通常都是水平或竖直方向排列，而且还会集中在某一部分，例如像新闻电视的标题等。虽然有些文字方向可能改变，但是为了确保观看效果，都会连续几帧图像相同，例如像电视广告等。　　（3）文本间隙（字符间隔）　　通常，在一行的文本，文本间隙会保持统一，具有相同的间距。几乎不会连在一起。　　2.颜色特性　　为了便于观看，文本的颜色通常会与背景画面形成较强的对比，同一部分的文本颜色应该具有相同或相似的颜色。　　3.运动特性　　在视频场景中的场景文本由于摄像的移动而发生运动，而且规律不定；人工文本则考虑到更好的为人们观看，相同内容的人工文本会持续几帧。　　四. 视频图像处理　　（一）视频载入　　MATLAB软件自带的图像视频处理工具箱VideoReader函数能方便的获取视频的帧数等属性信息，也可获得相应的图像序列。read 函数实现对视频文件的读取。　　（二）视频帧提取　　通过MATLAB中VideoReader函数获取视频文件信息后，在GUI界面进行显示。其中最为重要的是对视频进行分帧处理，调用函数VideoReader进行if循环，并将视频帧图像进行临时保存到本地。　　采用while循环语句，进行帧图像的读取，当变量值改变的时候，保存当前帧图像。该图像即为所选择的待处理图像。　　（三）图像灰度化和二值化　　1. 图像灰度化　　数字图像可以分为灰度图像和RGB图像（真彩图像）。图像中的每一个像素都是由R、G、B三个分量按不同数值构成。如果三个分量相等，则表示为一种灰度色，即图像灰度化为使R、G、B三个分量相等的过程。　　2. 图像二值化　　灰度化图像的二值化处理在图像处理过程中不仅能使工作量减小，还能够突出目标图像的边界，以便后续的分析。在图像进行二值化前需要对图像进行灰度直方图分析，以此为基准选取合适阈值，当灰度大于所选阈值像素会被划为目标，其灰度值为255，否则为0。　　（四）图像数学形态学　　图像在经过了灰度化和二值化的处理过程中，导致会丢掉一些边缘像素，为了使其达到更好的效果，对二值化处理的图像进行数学形态学的填充或溶解。数学形态学的应用，可以简化数据，取消非相关结构，提高了速度。数学形态学的最基本运算主要有四种：膨胀操作、腐蚀操作、闭运算（开启）和开运算（闭合）。　　五. 视频图像文本区域定位　　文本定位算法主要有以下几种：　　1. 基于区域的文本定位：此方法也被称为基于连通区域的文本定位方法，一般情况下，视频图像中的文本的像素点具有相同或相似的颜色，而且文本的颜色和背景的颜色差别很大。因此可以根据这一特点来分割图像[2]，通过颜色聚类等方法提取连接成分。再通过启发式规则进一步筛选，最