文字自动提取及其在视频索引和检索中的应用A-先进人机通信技术联合.PDF

文字自动提取及其在视频索引和检索中的应用A-先进人机通信技术联合.PDF

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文字自动提取及其在视频索引和检索中的应用 , ,3 1 2 1 2 卿来云 , 王伟强 , 高文 1( 中科院研究生院 计算机学部, 北京 100039); 2( 中科院计算所 数字化室, 北京 100080) 3(哈尔滨工业大学 计算机科学与工程系, 哈尔滨 150001) E-mail: {lyqing, wqwang, wgao}@ 摘要: 视频中的文字作为一种高级语义特征,对视频内容的理解、索引、检索具有重要作用。本文提出了一种数 字视频文字自动提取的方法,提取出的二值文字图像可输入到标准OCR软件包,得到文字的ASCII码表示。该方 法充分利用视频流中YCbCr各分量中蕴含的信息,并且压缩域分析和空域分析相结合,以达到速度和精度的较好 折衷。本文还实现了利用提取的文字做视频索引和检索的一个原型系统。实验结果表明,该文字提取方法能达到 很高的正确率和速度。 关 键 词: 文字提取;二值化;OCR;视频索引 1 引言 作为视频的一种高级语义线索,文字是视频检索中一种重要的高层特征索引。通过检测、提取和识别视 频中的文字能有效地对视频的内容进行自动索引,并帮助用户通过文字检索的手段来查找它所需要的视频片 断。在 MPEG-7 标准的第五部分中[1], 已经为视频文字定义了专门的描述子(videotext descriptor )进行规 范描述。 视频中文字的低分辨率以及彩色背景的高复杂度给视频文字检测,尤其是文字提取带来了很大的困难。 一些研究者已对视频流中的文字检测提取技术进行了研究。视频/ 图像中的文字检测主要有 4 类方法:基于边 缘的方法[2][3]、基于区域的方法[4][5]、基于纹理的方法[6][7]和基于时空信息[8]。基于边缘的方法主要是利 用视频/ 图像中,文字和背景通常存在较大的颜色差,因而在文字和背景存在明显的边缘。基于区域的方法主 要是利用文字和背景之间存在颜色差,而且文字笔划区域的颜色相同,通过寻找一致性区域来定位文字。基 于纹理的方法认为文字是一种特殊的纹理。基于视频的时空信息的方法是检测标题文字的出现和消失。因为 标题文字的出现/ 消失会引起相邻视频帧对应区域的变化。这种方法简单快速,但不能有效区分非标题文字因 素引起的帧间内容变化, 如摄像机的剧烈运动,和以缓慢渐进方式叠加的标题文字。 以上方法大多数是在空域上进行的[2][3][4][5],少数方法在压缩域上进行计算[8][9],[6]在文字检测的应 用中则是先在压缩域上对文字区域粗检测,然后在空域上进行进一步文字确认。在空域上处理需要完全解码, 因此计算费用高,但适应性强、处理精度较好。在压缩域上处理只需很少量的解码,从而计算速度快是其突 出优点。上述在文字检测、抽取应用中提出的各种处理方法通常只取某个/某些彩色分量作为处理对象而忽略 其他分量[2][3][5][9],或者通过降维的方法将原本很丰富的色彩降为几种少数颜色[4],没有充分利用彩色视 频中的各种视觉信息。 在我们的实验数据 CCTV 新闻联播视频中,标题文字的颜色并不是一致的,亮度差值多达 70 。实验表 收稿日期: 2001-00-00; 修改日期: 2001-00-00 基金项目: 国 家 自 然 科 学 基 金 ( ); 国 家 863 高 科 技 发 展 计 划 资 助 项 目 (863-306-ZT03—1-2; 863-3-6-ZD11-03;2001A40221A) ;中国科学院百人计划资助项目 作者简介: 卿来云(1974 -),女,湖南邵东人,博士研究生,主要研究领域为多媒体技术,人工智能;王伟强(1972 -),男,浙江绍兴 人,博士,助理研究员,主要研究领域为多媒体技术,人工智能 ; 高文 (1956-),男山东牟平人,教授,博士生导师,主要研究领域为多 媒体数据压缩,图像处理,计算机视觉,多模式接口,人工智能,虚拟现实. 2 明对该数据基于区域的方法效果不太好,同样颜色量化

文档评论(0)

wendang_12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档