数字信号处理概要1.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数字信号处理概要1

用于行为识别的高效特征提取、编码和分类 ——阅读笔记 0、摘要 局部的视频特征为行为识别提供了最先进的性能。近年来,行为识别的准确性不断提高,但特征提取和视频子序列识别的处理速度太低,以以致于现在的方法不能应用到现实问题中。我们关注这个问题并首先发明出使用视频压缩中的运动信息的高效的视频特征。接着,我们探索使用Fisher vectors来进行特征编码,并使用快速的线性分类器得到了准确的行为识别。我们的方法以识别率降低得最少的代价,把视频特征提取、特征编码和行为分类的速度提高了两个数量级。我们在四个最新的行为识别数据集上验证了这个方法,并与现在最先进的方法进行了比较。 1、简介 近年来,视频的数量爆炸性地增长,并且还在持续增加。这一发展的显著迹象包括每年上传到YouTube的市总时长为6000年的视频,还有仅在英国就安装了数百万的监控摄像头。根据Cisco的数据,2014年,视频占据了互联网数据传输的91% 。 要获取如此庞大数量的视频数据中的信息,这要求准确且高效地方法来进行自动的视频分析。近年来,学术界已经在自动的视频理解和人类行为识别方面做了很多工作。虽然识别的准确率在持续提升,但现在的方法局限于相对较小的数据集,因为视频处理的速度非常慢,通常只有每秒1至2帧。这与大规模视频索引和检索的需求形成了强烈的对比。很多客户应用也要求快速的视频识别,例如,自动的在线视频修改和视频编辑。有利于快速事件识别的高效视频表达将会促进解决新问题的办法,如大视频集的自动归类。 本文的主要目标是高效的行为识别。我们跟随常见的bag-of-features行为识别的套路,探索主要步骤中速度和内存的权衡,而其中,主要步骤即为特征提取、特征编码和视频分类。在前人的成功经验基础上,我们使用基于运动的HOF和MBH局部描述子来表达视频。然而,密集格子中的运动估计是个很耗时的过程,这限制特征提取的速度。在本文中,我们避免了运动估计,利用视频压缩域中的运动信息设计了一种快速的描述子。不同于密集光流,视频压缩域只提供了稀疏的运动矢量(我们称之为MPEG流)。本文的贡献之一,就是展示了稀疏MPEG流的使用以替代密集光流,这把特征提取的速度提升了两个数量级,而分类的性能只下降很少。 特征编码隐藏了局部描述子到一个或多个视觉词表中的最近元素的分配。给出了大量的视频描述子的情况下,特征编码这一步的速度是一个主要瓶颈。我们使用kd树近似最近邻搜索来评估和分析速度和识别准确率的权衡。接着,我们探讨Fisher vector(FV)编码,并展示了使用快速线性分类器时的得到提升的识别准确率。我们在Hollywood2、UCF50、HMDB51和UT-Interaction基准数据集上评估我们的方法的速度和准确率。 本文是这样组织的,在第2部分中回顾相关工作,在第3部分,我们说明局部视频特征的高效提取,第4部分描述了我们的快速的视频编码,第5部分展示了实验结果。 2、相关工作 最新的方法在行为识别上取得了重要的进步,包括在现实视频和来自YouTube、电影和电视的富有挑战性的视频。其他方法中,bag-of-features(BOF)方法最后欢迎,因为它简单,应用广泛,识别准确率高。BOF方法通过局部时空描述子的聚合来表示视频。几个替代的局部描述子得到了推荐,包括流方向直方图(HOF)、三维梯度直方图(HOG3D)、运动边缘直方图(MBH)、点轨迹形状、局部三值直方图等等。中级特征,如行为属性和行为岸也有探索过。最近的评估说明,沿着密集点轨迹采样的MBH、HOF和HOG描述子得到了最好的效果。更近一点的扩展得到了进一步提高,使用运动平稳和人轨迹。我们跟随以上并设计了一种新的基于运动的描述子,它大大地提升了速度,而识别率下降得很少。 高效的行为识别已经有几种方法研究了。有一个是利用视频压缩域的运动信息来进行快速的行为识别。然而,这个过去的工作设计了特定行为的描述子,而且它的速度随着类的数量线性变化。相比较而言,我们设计了一种通用的行为表示并评估它的准确率和效率,并在很多类上进行测试。Yeffet和Wolf把快速LBP图像描述子扩展成局部三值模式(LTP)描述子。LTP号称是实时的,但没有量化地评估它的速度。不同于LTP,我们使用基于流的MBH和HOF描述子,它们在行为识别上有很好的结果。Yu提议另一种基于像素的局部描述子用于高效的行为识别,我们和它进行了量化的比较,包括速度上和准确率上。和我们的工作非常相近,有人使用随机特征采样来提高了特征提取速度。我们的实验和它做了对比,表明我们的方法比它快了一个数量级,而且识别率也更高。 特征编码的替代方法最近提出用于图像分类。Fisher vector(FV)编码有最高的识别率,当使用线性核分类的时候。FV编码成功地被用于事件检测,我们验证

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档