基于内容的视频检索的场景分割研究.pdfVIP

下载本文档

1
0
约2.16万字
约 11页
2017-08-07 发布于福建
举报
版权申诉

基于内容的视频检索的场景分割研究.pdf

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于内容的视频检索的场景分割研究.pdf

基于内容的视频检索的场景构造研究任晓峰武汉理工大学信息工程学院，湖北武汉（430070 ） Email：rogerrr_0@ 摘要：本文在分析现有场景分割算法的基础上，提出了利用帧图像的全局颜色特征和运动特征来来定义镜头的相似度，然后利用镜头迂回聚类算法分割场景，同时为了减小过度分割的影响,还提出了一种合并过度分割出场景的方法，使得视频场景分割达到最佳的效果。关键词：基于内容，相似度，迂回聚类，场景分割中图分类号:TP391 1. 引言当前,随着各种视频压缩标准的工业化应用、PC 电脑性能的显著增长, 以及光盘等存储媒介成本的下降,视频信息交流已经越来越广泛,海量的数字视频信息广泛地分布于各种网络和存储媒介中。但遗憾的是这些存储通常只进行了简单的分类甚至不分类,而且只能通过顺序浏览的方式进行访问。为了有效地管理和使用大型视频数据库,我们需要解决视频信息的自动标引和检索问题。为了能够方便人们寻找视频数据,基于内容的视频检索(Content2based Video Retrieval, CBVR)技术的研究引起了人们广泛的关注。多媒体内容描述接口MPEG27 的逐步制定和完善, 更加推动了高效的基于内容的多媒体搜索引擎的开发。基于内容的视频检索,就是由计算机对于视频的内容进行自动分析,制成索引,用户可以针对自己所需要的内容提出查询要求,而不是寻找关键词。目前,基于内容的视频检索研究, 主要集中在视频分割、特征提取和描述(包括视觉特征、颜色、纹理和形状及运动信息和对 [1] 象信息等) 结构分析和镜头检索等方面。借助镜头分割可将视频节目分成一系列镜头，但以镜头为单元划分视频节目所需面对的单元个数通常被认为过多。因为镜头分割常基于视觉特征进行，这表明镜头内容的语义信息尚未很好的利用。另一方面，镜头主要还是一个物理单元，还不足以描述有语义意义的事件或活动，或者说在镜头层次上，还没有将视频节目的逻辑关系描述出来。为此，需要对视频进行更高层的抽象，将内容上有关系的镜头结合起来，以描述视频节目中有语义意义的事件或活动。这个工作常称为镜头聚类，或者情节分割、镜头聚集等，而因此得到的镜头集合体也有多种叫法，如场景(scene)，视频片断(video clip)、情节(episode)、故事单元(story unit)等。类似于用关键帧代表镜头，也可以使用有代表性的帧来代表镜头聚集体，以简洁地表达基于语义内容层次的场景内容。 2. 基于内容的镜头集合镜头分割的结果是把视频流划分成一系列镜头，而各个镜头的内容则可由抽象得到的关键帧来表达。镜头虽然是一个含有一定语义的单元，但直接将视频节目分解为一系列镜头的集合并不实用。例如，一个典型的故事片可分解成 600～1500个镜头[1] 。如果每个镜头选一帧作关键帧，则一个故事片仍需要600～1500帧。如果镜头中运动比较多，每个镜头需要多帧作关键帧，则整个故事片所需要的帧数还会增加。这样上千帧的图像用于分析视频内容仍然显得比较多。为了更抽象地表达视频，也为了进一步将视频内容加以组织，需要在镜头检测的基础上 -1- 构造更高层次的内容相关的镜头集合体或聚类，如片断(clip)、故事(story)、情节(episode)、场景或情景(scene)等。对视频进行更高层、更抽象的单元或者说场景构造根据目的和形式的不同可分两种。(1)分类指的是仅考虑镜头间的特征相似性，不考虑时间上的连续性。例如根据镜头内容的重复性，可区分对话型和动作型，对话型动作比较固定但对象重复交替出现，动作型镜头跟随事件不固定在一个位置，很少有镜头的重复；(2)聚类指把属于同一个场景的镜头结合起来，以形成视频层次结构，不仅要考虑内容上的相似性，还要考虑时间上的连续性。对