视频字幕检索技术总结.docVIP

下载本文档

41
0
约3.37千字
约 8页
2018-11-16 发布于福建
举报
版权申诉

视频字幕检索技术总结.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

视频字幕检索技术总结

视频字幕检索技术总结　　在各种多媒体的信息当中，视频内容通常具有比音频更为丰富的信息量。作为快速浏览的手段和后续视频处理的重要依据，基于视频内容的信息检索得到人们广泛关注，日益成为国内外研究的热点课题，其中视频字幕检索是CBVR的重要方面。　　　　字幕检索的基本过程　　　　视频字幕检索系统中的关键问题是字幕边缘分割与字符识别，需要用到字幕分离技术和图像处理技术。其字幕检索的基本过程为：首先是检测视频字幕所在的关键帧；然后要对字幕在该帧内进行定位，同时进行阈值计算和水平垂直边沿修正限制；字幕区域提取是要分割、提取出字幕区域；然后对该区域进行后处理，包括区域合并、过滤、二值化等操作；最后是由OCR(Optical CharacterRecognition)软件进行字符的识别，过程如图1所示。　　　　国内外视频检索研究及其应用现状　　　　(一)字幕检测　　现有的视频字幕检测方法主要是利用字幕的时间冗余来检测相同字幕存在的帧，然后利用帧内文字区域的特征来定位出文字的位置。Dongqing Zhang等人结合由DCT(Discrete cosine Transform)系数和运动向量推导出的压缩域特征来定位字幕区域，采用长时间的一致性来增强定位精度。Soo-Chang Pei等人提出一种利用MPEG(Moving Picture Experts Group)压缩视频比特流的宏块类信息的分析方法。这种方法采用在运动预测过程中进行比较运算，当场景变换时或特定效果产生时得到宏块类信息中的精确特征。这种方法用于分析快速场景变化、渐变、闪光和字幕检测，优点是它在vLC(Variable Length Code)解码后从MPEG比特流中直接提取，分析复杂度低，具有较高的灵敏度和帧检测的精确性。蔡波周等人提出的字幕检测算法，结合了时间检测和空间边缘检测技术，首先进行文字事件检测，然后进行边缘检测、阈值计算和边缘尺寸限制，最后依据文字像素密度范围进一步滤去非文字区域的视频字幕。提出的叠加水平和垂直方向边缘的方法，加强了检，测到的文字的边缘；对边缘进行尺寸限制过滤掉了不符合文字尺寸的边缘；进一步提出像素密度α的概念，并指出文字区域的像素密度α应在某一阈值范围之内(amin≤α≤α　max)。通过像素密度α滤去了非文字区域，应用投影法最终确定视频字幕所在区域。多种技术的结合提高了算法的正确率和鲁棒性，并具有较快的计算速度。　　　　(二)字幕提取　　视频检索的第二个重要方面是字幕分割提取，在这方面许多研究者也做了大量的工作。例如Xiaomiao Zhang等人基于对比度的特征提出一种基于空间对比特征的图像高对比区域提取的方法；彭培华等人研究了基于支持向量机的小波域视频字幕检测与提取方法，其基本步骤是先对视频图像进行分割，提取它们在小波变换域中的统计特征，然后用支持向量机SVM(Support Vector Machine)分类器对这些特征进行分类，实现字幕的自动检测与提取。周军等人在基于局部能量特征的视频字幕分割方法中，首先利用局部能量与图像中边缘、轮廓特征之间的对应关系进行字幕的自动分征割，再在分析局部能量模型基础上将局部能量计算方法进行推广，即先通过选用具有对称性的双正交小波基及Hilbert变换，构造适于局部能量计算的90°相移滤波器，然后通过多分辨率小波变换实现了信号的多分辨率频带分割，以此来快速计算局部能量。如果将多种技术结合起来进行字幕提取，可以取得更好的分割效果，以便提取字符。例如黄晓东等人用小波变换技术和颜色类聚技术提取含有中文字幕的视频图像的文字，并利用印刷中文字体的特点进行噪音处理得到完整清晰的字幕文字。在进行颜色聚类时，他们提出一种8领域颜色聚类方法，充分利用图像像素的空间相关性，使聚类具有较好的鲁棒性。　　　　(三)文字识别　　对于视频字幕检索而言，另一个关键技术就是视频文字的识别。文字识别处于文字提取之后，对于不同的应用领域，待识别的文字往往有不同的特、属性，因此许多文字的提取算法是针对相应的字符识别算法提出来的。Toshio sato等人设计出一种针对新闻字幕的视频oCIk系统，利用视频OCR对视频中的关键搜索信息――人物姓名、地点或物体的描述进行自动抽取、识读字幕，并添加注释，它能在一个大型的数字新闻视频档案中极大地帮助定位感兴趣的主题。对于新闻视频字幕的特点：字符低分辨率和特别复杂的背景，他们提出一种插补滤波器、多帧混合的算法来解决上述问题。采用针对识别的分割方法来完成字符分割，而识别的中间结果用来增强分割效果。在新闻视频中采用这样的视频OCtk方法，可以提高对新闻视频内容的全面理解。杨友庆等人也在充分考虑新闻视频字幕的独有特性基础上，提出了基于视频的字幕检索和