面向教学视频检索的自动字幕检测与识别.pdfVIP

下载本文档

11
0
约2.21万字
约 55页
2017-09-08 发布于浙江
举报
版权申诉

面向教学视频检索的自动字幕检测与识别.pdf

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

南京人学100I:论文第一章引言术，利用视频OCR技术抽取视频中的文字建立索引是一项很有意义的工作，它可以使广大学生迅速准确地定位感兴趣的视频资源部分，更好地使用远程教学资源。木文利用基于内容的视频检索及视频OCR技术，分析和设计了一个面向远程教学的基于自动字幕抽取的教学视频检索系统。这方面的研究是很有意义的，作为《网络教学支持系统》中的一个子课题，它为教学提供了便捷的信息服务，促进了远程教学的普及和发展。 1.3 现有的相关工作数字视频的索引和检索是近年来的热门研究领域，目前己有许多研究工作。自动视频索引一般使用基于对象或整个图像的颜色、纹理、轮廓、运动以及伴音等信息进行。而自动检测、抽取、识别出现在数字视频中的文字，并将其用作索 J}来检索视频则是Lienhart等L[-1-198]新近提出的。最初的文字识别的工作集中在印刷体和手写体文档的OCR识别，以满足办公自动化系统对文档阅读器的大量需求和市场。这些系统己经达到很高的成熟度。其后文字识别工作被用于工业应用上，但大都集中于特定的应用领域，例如车牌识别、工程图纸识别、地图文字识别等。它们适用的背景和文字都是受限制的。己有一些工作研究在复杂图像和视频中的文字检测与抽取。Smith和 Kanade[S.im98]简要地提出了一种在视频帧中检测和抽取文字的方法，这种方法把文字特征化为 “聚类锐边的水平矩形结构”并应用这种特征鉴别文字片段。这种方法完全是帧内的。 Ye。和Lin[v`0961提出了一种标题文字检测与抽取的策略，它是基于视频中局部区域的切变和渐变的镜头边界检测技术的。标题文字的出现和消失被定义为局部切变或隐现。这种方法是针对MPEG视频的，是基于帧间的方法，计算简单。然而，标题文字只是出现在视频中的文字的子集，且当遇到不符合分类标准的情况时 (例如滚动标题)，这种方法就失效。 Zhong等Z[hong951提出了一种在复杂图像中定位文字的简单方法。他们混合使用两个方法，一是基于寻找一定尺寸的单色连通区域，二是基于文字的特定空间变化。但这种方法用于在扫描的彩色CD图像中定位文字，并未直接用于视频帧。 Wu等JW.971提出了一个四步骤系统，以在图像中自动检测和抽取文字。首先，应用纹理分割来检测文字可能出现的区域。其次，从分割的文字区域中抽取文字。对文字串使用高度相似性、间隔和排列成的行列等合理的启发性机制，然后处理抽取的文字以形成包含相应文字串的矩形框。再次，通过清除背景和二值化检测的文字串来抽取文字。最后，把文字提取出并二值化，通过商用的OCR软件识别。南京大学倾卜论文第一章引言这种方法是针对扫描的图像处理的，也不能直接应用十视频帧。 Ohya等o[hyn941对场景图像中的文字识别进行了研究。场景中的文字存在于二维空间，可能被旋转、倾斜或部分遮挡。Ohya等把文字限制为垂直、单色、非连通的，以便于检测。但他们的研究局限于静态图像而非视频帧。 Sat。等[Sat.99]提出了在低分辨率文字和复杂背景情况下，处理新闻视频中文字的识别方法。通过使用亚像素插入方法来放大文字图像，以提高文字分辨率，采用多帧集成的方法来去除复杂背景。同时也提出了一个文字抽取滤波器和一种文字识别的新方法。但他们的许多方法只适用于新闻视频。 Lienhart等L[knh.98)提出了一种面向视频检索的自动文字检测与识别的新方法。他们利用视频中文字的典型特性，通过颜色分割、对比度分割、几何分析、纹理分析、运动分析等步骤，把文字集成为一个二值图像，并通过标准OCR软件把分割的文字转换为ASCII码形式，同时介绍了简单的索引和检索策略。但他们的方法主要针对电影视频的片头或片尾字幕的。 HuipingLi等L[i99.)也对视频中的文字检测与识别进行了大量的研究工作。他们提出的方法主要是基于神经网络的。他们的系统实现了一个规格空间特征抽取器，以馈给人丁神经处理器来抽取文字区域并追踪它们的运动。抽取的区域通过 OCR 系统产生可用于索引的关键字。 1.4 本文的内容与组织木文的研究「作主要针对教学视频，主要研究面向教学视频检索的自动字幕检测、抽取与识别技术。木文研究工作的