- 32
- 0
- 约1.31万字
- 约 14页
- 2021-01-31 发布于四川
- 举报
视频中动作识别任务综述
; 动作识别; 行为分析; 深度学习
video understanding; action recognition; event analysis; deep learning
引 言
人类社会过去几十年的网络化与数字化使得网络数据呈现爆炸性增长,并逐渐步入了大数据时代[]。随着移动通讯技术的发展,人们明显能够感受到互联网上传输数据的变化。在G时代通过手机传输的主要是文本信息,在G时代图像信息成为移动数据的重要组成部分,而在G时代长视频、短视频、直播等视频流数据迎来了爆发,并且随着G技术的革命,高清视频、无人驾驶领域所获取的视频等数据的增多将会进一步加速这一趋势。这些海量的视频数据需要智能视频分析技术的发展。
近年来,随着视觉领域迅猛发展,作为其子领域的研究成果也陆续涌现[]。在Karpathy等人[]首次将卷积神经网络用于动作识别任务上后:从理论上来看,双流卷积网络[]和D卷积网络[]等重要工作取得突破,由此创建针对动作识别任务新的神经网络框架;从数据集上来看,从年包含 段视频的KTH动作数据集[]到年包含大约万段视频的Kinetics-数据集[]的提出,数据集包含视频和动作种类的增加使得训练更深網络成为可能。而在动作识别研究的基础上,对事件检测[]、动作检测[]、视频标注[]乃至视频生成[]等任务的研究现已成为当下学界的研究热点。
作为视频分析领域的基础任务,对于动作识别的研究有重要的理论和应用价值。本次研究中,首先通过对视频数据的分析和网络模型的设计,能够构建更好的视频表达模型,加深对视频数据的理解;其次,动作识别研究能够为动作检测、事件识别等一系列相关任务提供理论基础;此外,动作识别研究在视频监控、无人驾驶、游戏等领域还有着广阔的应用前景。基于此,本文将会探讨视频中动作识别任务的定义,接下来回顾了近年来动作识别领域的研究进展,最后介绍了一些常用的动作识别公开数据集。
视频中动作识别任务的定义
在定义动作识别任务前,先要厘清短时动作(Act)、动作(Action)、行为(Activity)、事件(Event)这四个概念。研究对其并没有严格的定义,主要通过运动时间跨度的长短以及运动的复杂度来进行区分。其中,短时动作是指类似于举手、抬腿、往前走一步等这种时间跨度较短的运动,其实短时动作的概念与汉语中本身的动作概念很相似。动作是一种约定俗成的翻译,是指由多个短时动作组成、时间跨度中等的运动,比如跑步,跳远、骑马等。而行为又是由多个动作组成的、时间跨度较长的运动,比动作更加复杂,是由多个动作按照时间先后,或者按照参与人数组合而成,比如多个人之间的互动、一个人走进屋子又走出去等。事件则是多个动作或者行为的组合,比如一场足球赛,一次交通事故等。在本文中综述的对象是针对动作的识别,而其中提出的一些方法也可以被应用到行为或者事件分类问题中。
在动作识别任务的研究中,除了基于视频的动作识别之外,还有基于静态图像的动作识别、基于深度数据的动作识别等。总地来说,基于静态图像的动作识别一般基于SIFT描述子、HOG描述子、GIST描述子等底层特征或者基于人体[]、人体部件[]、与动作相关的物体[]、人体与物体之间的交互关系[]等高层信息。但是在静态图像中缺少时域信息,这限制了其动作识别的准确度。基于深度数据的动作识别主要思路之一是构建基于深度图的时空特征,如Oreifej等人[]提出了HOND描述子,用直方图来捕获时间、深度、空间坐标组成的四维空间的表面法线方向的分布。但是由于深度数据获取不易,基于深度数据的动作识别在应用上也有其局限性,所以目前基于视频的动作识别是动作识别领域中的主要研究方向。而本文所研究的基于视频的动作识别可以定义为给定动作视频,通过动作识别算法处理后输出视频中动作类别标签的过程。
视频中动作识别任务的相关方法
动作识别方法主要可以分为基于传统方法的动作识别和基于深度学习的动作识别两大类,其中基于传统方法的动作识别又可以分为基于全局表示和局部表示的动作识别。对此拟展开研究论述如下。
. 基于全局表示的动作识别
与目标识别方法的发展轨迹类似,动作识别方法也是由初期的全局表示逐渐过渡到更鲁棒的局部表示。全局表示是指直接从视频中提取整个人体的某种表示(比如轮廓[]或者光流[]等)。在提取全局表示时先要将包含整个人体的感兴趣区域定位出来,再提取感兴趣区域的形状、边缘、光流等特征。全局表示刻画了视频中整个人体的运动情况,包含了全面而丰富的视觉信息,但是其缺点在于因为是在整个人体上提取特征,所以容易受到遮挡、视角变化、背景噪声等影响。
Bobick等人[]提出的运动能量图(Motion-energy
原创力文档

文档评论(0)