利用概率模型合并算法进行视频场景检测.pdfVIP

下载本文档

8
0
约 6页
2017-08-13 发布于安徽
举报
版权申诉

利用概率模型合并算法进行视频场景检测.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

利用概率模型合并算法进行视频场景检测赵黎杨士强钟玉琢清华大学计算机科学与技术系北京100084 摘要：对视麓内容进行有效她管理、检索及浏览时，最重要的是在场景和镜头这两个层次上抽取出视频的结构信息．本文在概率模型合并方法的基础上提出了一种有效的视频场景捡铡算法。谊算法中视频镜头被看作穗性状态变量，一十镜头向另一个镜头切换的概率则被看作转移概率，利用概率合并的算法来选到镜头采类，即场景的检测．实验结果表明，我们的算法在视频场景的检测中能够取得很好的效果．关键宇：两景检测、镜头聚类、视频内容分析、概率合并模型、最佳一优先模型 1 引言数字视频内容有效、自动地组织与管理是视鞭库的关键问题。随着网络的发展．网络上各种视频应用都急需一种智能的快速内容过滤和有选择的内容分发功能。视频结构分析就是从视频节目中抽取出结构单元的信息。从视频中插取出的结构信息尤其是语义这一级的信息同人对视频内容的表述是一致的，这也是对视频作基于内容管理和检索的基础。视频结构单元通常可以分作两层：镜头和场景。镜头由一组连续的视频帧组成．通常表示时间或空间上连续的事件。视频场景由一些语义相近的镜头组成，包含一定的故事情节。有关视藏结构分析的早期的工作都集中在视频镜头的边界检测上，并且提出了很多镜头检测的方法。进行镜头边界检测后，相应的关键帧就可以抽取出来，然后再用图豫分析的技术理解视菝镰头的内容。与直接存取原始的无结构视频流相比，基于镜头的视频分析方法显然给用户带来了更方便的存取方式。但是，基于镜头的枧频分析方式还不能进行非常有效她谢览和检索，所以如果能够抽取场景的结构信息就能够帮助用户更好的建立视频的攮耍和索引以便于澍览和检索。镜头聚类一般可以分为两类方法。第一类方法是基于镜头边界的检测，其主要思想是检澍镜头边界的变化：认为视频、音频内容同时发生变化的镜头边界也是场景的边界【l】。然而这释方法投有把镜头作为—个整体去考虑，边缘豹帧(起始帧、末桢)实际上对场景的检舅有着更大影响。第二类算法试图合并那些相似且连续的镜头作为一个场景【2】【3】【4】。这些算法研究了扬景内部的同—性，同时也提出了—些有关镜头相舣度度量的算法，如：比较关健帧中块匹配的敷目【3l，比较两个镜头中任意关键馈的直方圈【4】。换句话说，这些方法都是以镜头中的帧、关艇赖或是独立帧的相似度匹ja上为基础的。但是，如果只用关键帧来表示镜头的相似度就忽略了镜头中的时间信息。本文挺出的场景检测算法属于第二类方法，场景被定义为—个或多个时间上连续的语义相关的镜头。在我们的算法中：首先，将视频中的髓头看作是隐性状态变量；其次，将 } } ，4l· { i f 一霭焉i臻■ilI|『一_……————————————J 镜头之间的切换看作从某一状态改变到下一状态的转移概率模型；接下来，利用“最佳一优先模型合并”(Bcst_F融Model M哪辨法得到最优的聚类结果：本文的组织结构如下：在第二节中将给出概率模型的描述并提出场景分割的方法；第三节，则给出我们算法的实验结果及其分析；第四节为结论。 2视频场景检测算法场景可以定义为一个或多个语义相近的镜头的集合，或者说是在事件、地点、时间等条件下有着相似的“内容”。可以这样认为，镜头表示视频序列物理上的边界，而场景表示视频序罗|l语义上的边界。显然，寻找语义上的边界(场景)比寻找物理上的边界(镜头) 要困难许多。为了解决E面提到的问题。我们首先将视频中的镜头看作是隐性状态变量；其次将镜头的切