文字自动提取及其在视频索引和检索中的应用A-先进人机通信技术联合.PDF

下载文档

5
0
约1.63万字
约 9页
2017-11-16 发布于天津
举报
版权申诉
保障服务

文字自动提取及其在视频索引和检索中的应用A-先进人机通信技术联合.PDF

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文字自动提取及其在视频索引和检索中的应用， ,3 1 2 1 2 卿来云 , 王伟强 , 高文 1( 中科院研究生院计算机学部, 北京 100039); 2( 中科院计算所数字化室, 北京 100080) 3(哈尔滨工业大学计算机科学与工程系, 哈尔滨 150001) E-mail: {lyqing, wqwang, wgao}@ 摘要: 视频中的文字作为一种高级语义特征，对视频内容的理解、索引、检索具有重要作用。本文提出了一种数字视频文字自动提取的方法，提取出的二值文字图像可输入到标准OCR软件包，得到文字的ASCII码表示。该方法充分利用视频流中YCbCr各分量中蕴含的信息，并且压缩域分析和空域分析相结合，以达到速度和精度的较好折衷。本文还实现了利用提取的文字做视频索引和检索的一个原型系统。实验结果表明，该文字提取方法能达到很高的正确率和速度。关键词: 文字提取；二值化；OCR；视频索引 1 引言作为视频的一种高级语义线索，文字是视频检索中一种重要的高层特征索引。通过检测、提取和识别视频中的文字能有效地对视频的内容进行自动索引，并帮助用户通过文字检索的手段来查找它所需要的视频片断。在 MPEG-7 标准的第五部分中[1]，已经为视频文字定义了专门的描述子（videotext descriptor ）进行规范描述。视频中文字的低分辨率以及彩色背景的高复杂度给视频文字检测，尤其是文字提取带来了很大的困难。一些研究者已对视频流中的文字检测提取技术进行了研究。视频/ 图像中的文字检测主要有 4 类方法：基于边缘的方法[2][3]、基于区域的方法[4][5]、基于纹理的方法[6][7]和基于时空信息[8]。基于边缘的方法主要是利用视频/ 图像中，文字和背景通常存在较大的颜色差，因而在文字和背景存在明显的边缘。基于区域的方法主要是利用文字和背景之间存在颜色差，而且文字笔划区域的颜色相同，通过寻找一致性区域来定位文字。基于纹理的方法认为文字是一种特殊的纹理。基于视频的时空信息的方法是检测标题文字的出现和消失。因为标题文字的出现/ 消失会引起相邻视频帧对应区域的变化。这种方法简单快速，但不能有效区分非标题文字因素引起的帧间内容变化, 如摄像机的剧烈运动，和以缓慢渐进方式叠加的标题文字。以上方法大多数是在空域上进行的[2][3][4][5]，少数方法在压缩域上进行计算[8][9]，[6]在文字检测的应用中则是先在压缩域上对文字区域粗检测，然后在空域上进行进一步文字确认。在空域上处理需要完全解码，因此计算费用高，但适应性强、处理精度较好。在压缩域上处理只需很少量的解码，从而计算速度快是其突出优点。上述在文字检测、抽取应用中提出的各种处理方法通常只取某个/某些彩色分量作为处理对象而忽略其他分量[2][3][5][9]，或者通过降维的方法将原本很丰富的色彩降为几种少数颜色[4]，没有充分利用彩色视频中的各种视觉信息。在我们的实验数据 CCTV 新闻联播视频中，标题文字的颜色并不是一致的，亮度差值多达 70 。实验表收稿日期: 2001-00-00; 修改日期: 2001-00-00 基金项目: 国家自然科学基金（）；国家 863 高科技发展计划资助项目 (863-306-ZT03—1-2; 863-3-6-ZD11-03;2001A40221A) ；中国科学院百人计划资助项目作者简介: 卿来云(1974 －),女,湖南邵东人,博士研究生,主要研究领域为多媒体技术，人工智能;王伟强(1972 －),男,浙江绍兴人,博士,助理研究员,主要研究领域为多媒体技术，人工智能 ; 高文（1956－），男山东牟平人,教授,博士生导师,主要研究领域为多媒体数据压缩，图像处理，计算机视觉，多模式接口，人工智能，虚拟现实. 2 明对该数据基于区域的方法效果不太好，同样颜色量化