- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文字自动提取及其在视频索引和检索中的应用
, ,3
1 2 1 2
卿来云 , 王伟强 , 高文
1( 中科院研究生院 计算机学部, 北京 100039);
2( 中科院计算所 数字化室, 北京 100080)
3(哈尔滨工业大学 计算机科学与工程系, 哈尔滨 150001)
E-mail: {lyqing, wqwang, wgao}@
摘要: 视频中的文字作为一种高级语义特征,对视频内容的理解、索引、检索具有重要作用。本文提出了一种数
字视频文字自动提取的方法,提取出的二值文字图像可输入到标准OCR软件包,得到文字的ASCII码表示。该方
法充分利用视频流中YCbCr各分量中蕴含的信息,并且压缩域分析和空域分析相结合,以达到速度和精度的较好
折衷。本文还实现了利用提取的文字做视频索引和检索的一个原型系统。实验结果表明,该文字提取方法能达到
很高的正确率和速度。
关 键 词: 文字提取;二值化;OCR;视频索引
1 引言
作为视频的一种高级语义线索,文字是视频检索中一种重要的高层特征索引。通过检测、提取和识别视
频中的文字能有效地对视频的内容进行自动索引,并帮助用户通过文字检索的手段来查找它所需要的视频片
断。在 MPEG-7 标准的第五部分中[1], 已经为视频文字定义了专门的描述子(videotext descriptor )进行规
范描述。
视频中文字的低分辨率以及彩色背景的高复杂度给视频文字检测,尤其是文字提取带来了很大的困难。
一些研究者已对视频流中的文字检测提取技术进行了研究。视频/ 图像中的文字检测主要有 4 类方法:基于边
缘的方法[2][3]、基于区域的方法[4][5]、基于纹理的方法[6][7]和基于时空信息[8]。基于边缘的方法主要是利
用视频/ 图像中,文字和背景通常存在较大的颜色差,因而在文字和背景存在明显的边缘。基于区域的方法主
要是利用文字和背景之间存在颜色差,而且文字笔划区域的颜色相同,通过寻找一致性区域来定位文字。基
于纹理的方法认为文字是一种特殊的纹理。基于视频的时空信息的方法是检测标题文字的出现和消失。因为
标题文字的出现/ 消失会引起相邻视频帧对应区域的变化。这种方法简单快速,但不能有效区分非标题文字因
素引起的帧间内容变化, 如摄像机的剧烈运动,和以缓慢渐进方式叠加的标题文字。
以上方法大多数是在空域上进行的[2][3][4][5],少数方法在压缩域上进行计算[8][9],[6]在文字检测的应
用中则是先在压缩域上对文字区域粗检测,然后在空域上进行进一步文字确认。在空域上处理需要完全解码,
因此计算费用高,但适应性强、处理精度较好。在压缩域上处理只需很少量的解码,从而计算速度快是其突
出优点。上述在文字检测、抽取应用中提出的各种处理方法通常只取某个/某些彩色分量作为处理对象而忽略
其他分量[2][3][5][9],或者通过降维的方法将原本很丰富的色彩降为几种少数颜色[4],没有充分利用彩色视
频中的各种视觉信息。
在我们的实验数据 CCTV 新闻联播视频中,标题文字的颜色并不是一致的,亮度差值多达 70 。实验表
收稿日期: 2001-00-00; 修改日期: 2001-00-00
基金项目: 国 家 自 然 科 学 基 金 ( ); 国 家 863 高 科 技 发 展 计 划 资 助 项 目 (863-306-ZT03—1-2;
863-3-6-ZD11-03;2001A40221A) ;中国科学院百人计划资助项目
作者简介: 卿来云(1974 -),女,湖南邵东人,博士研究生,主要研究领域为多媒体技术,人工智能;王伟强(1972 -),男,浙江绍兴
人,博士,助理研究员,主要研究领域为多媒体技术,人工智能 ; 高文 (1956-),男山东牟平人,教授,博士生导师,主要研究领域为多
媒体数据压缩,图像处理,计算机视觉,多模式接口,人工智能,虚拟现实.
2
明对该数据基于区域的方法效果不太好,同样颜色量化
文档评论(0)