视频摘要算法调研视频摘要算法调研.pdfVIP

视频摘要算法调研视频摘要算法调研.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
视频摘要算法调研视频摘要算法调研

视频摘要算法 1、 视频摘要概述  定义 视频摘型是以自动或半自动的方式,利用计算机技术来分析和处理新闻、广 告、监控录像等数字视频数据的结构和内容,从原始的媒体数据中提取有代表性、 有意义的部分,将它们以某种方式合并生成紧凑的、简明扼要的、用户可读的、 能充分表达视频内容的缩略形式。  目的 可以让用户快速、方便的了解整个视频的内容,以决定是否详细观看这段视 频,同时,还可以用于视频数据库的索引、查询等,通过它可以快捷地在庞大的 数据库中找到用户所需要的视频。  表现形式 主要分为两种:静态的视频概要(Video Summary)和动态的缩略视频(Video Skimming)。其中视频概要是提供快速方便的浏览方式,而缩略视频是视频内容 的浓缩。具体的表现形式如下图所示 图1 视频摘要分类示意图  基本步骤 视频切割 视频内容提取 重要度评判 合成摘要 摘要表现  算法分类 1) 简单的生成算法 这种方法是基于时间对视频进行采样,即每隔一定的时间从视频帧序列中抽 取一个代表帧或者一个片段来形成摘要。此方法从操作上很容易实现,但从效果 上来看很不可靠,完全没有基于视频的内容。 2) 基于视觉信息的生成方法 根据视频中颜色、纹理、形状、运动方向和强度等视觉信息,基于模式识别 的思想,应用各种视频和图像处理技术,进行镜头探测、关键帧提取、场景聚类、 运动特征提取等一系列的操作,最终生成具有代表性的关键帧序列或缩略视频。 这种方法完全基于视觉特征,而忽略了音频、字幕等信息,对表现原视频有一定 的影响,但相对简单的采样生成算法来说,在效果上有了很明显的提高。 3) 融合多特征的生成方法 这种方法在基于视觉信息方法的基础上融入了其它媒体提供的信息如音频、 字幕等,来更加准确的判断视频片段的重要程度,然后根据重要度来提取视频摘 要。例如,采用人脸识别技术来探测新闻中重要人物的出现,采用音频处理技术 来探测体育视频中的精彩片段等。目前,很多的视频摘要算法都是基于这种思想 的,是研究的热点。 4) 基于视频句法语义的生成方法 此方法从视频的句法结构分析入手,探寻镜头与镜头之间、场景与场景之间 的结构规则,进而从中分析出所表现的情感和氛围,并以此为基础,将视频的句 法语义尽可能完整的保存到摘要当中。 主要的算法集中在对视频切割和视频内容提取(关键帧序列提取)的分析和 操作上,下面将对这两部分所涉及的常用算法做概要总结。 2 、 视频切割算法概述 在视频切割中,场景边界是一个很重要的概念,视频摘要中,最主要的一个 步骤是找场景边界,以便对视频文件进行准确的场景切分。 一个完整的视频包含3 种典型的信息:视觉信息、音频信息和文本信息.视 频中的视觉信息主要包括颜色、纹理和运动等信息.根据生成摘要所用信息类型 的多少,镜头检测和代表帧提取方法分为单模和多模2 种类型.单模的代表帧提 取仅利用视觉、音频和文本中的一种信息.对于基于视觉的单模方法,当从一个 场景变换到另外一个场景的时候,相邻的图像帧之间的背景、人物、环境等都会 发生明显变化,而这些都会具体体现在图像的颜色分布上。因此,要判断两幅图 像之间的相似性,可以根据图像的颜色属性来找出场景边界。具体的算法主要有 下面几种:  基于交互信息量的切分方法 对于连续的两帧图像,分别利用下式独立计算出其三个RGB 分量的交互信 息量: R L 1 L 1 p AB (a ,b ) I t ,t1 pAB (a,b)*log a 0 b 0 p A (a )*p B (b ) 其中,p (a ) 和

您可能关注的文档

文档评论(0)

tazhiq2 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档