基于时空方向分析的行为发现和识别.docVIP

下载本文档

3
0
约1.65万字
约 22页
2017-02-10 发布于北京
举报
版权申诉

基于时空方向分析的行为发现和识别.doc

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于时空方向分析的行为发现和识别

???????????????????????????基于时空方向分析的行为发现和识别摘要：这篇文章提供了一个对动作发现和动作识别相关课题统一的框架。动作发现是在视频中对人体动作的时空特征检测和定位。动作识别是将给定的视频按照预定义的类别进行分类的过程。一种在动作发现和动作识别中动态视频的新的紧凑的局部特征描述符被介绍，这种描述基于视觉的时空能量。该描述子有效地直接从原始图像的灰度数据和计算,从而避免了使用基于光流特征遇到的困难。更重要的是，该描述子考虑到了在不计空间外观时两个视频潜在的变化，比如衣服的不同，并且对杂乱具有鲁棒性。一个类似的相关方法可以对一个独立的典型的视频模板在候选视频序列中进行高效详尽的搜索。当前通用的行动发现和行动识别都是可以高效的实现，并且在很多重要的应用中都是起关键作用。基于GPU的实时行为发现算法已经实现。在标准数据上，本文所提的算法展现了卓越的效能，在具有挑战性的数据上该算法也具有很好的效率。关键字：行动发现，行动识别，行动描述，人体动作，视觉时空，时空方向，模板匹配，实时实现介绍 1.1动机这篇文章阐述了在视频中检测和定位时空特征，识别时空特征。特别地当前关心的是所介绍的人体动作。这里，“动作”指一个表演者在一段较短的时间内所实施的一个简单的行为模式（比如说走，挥手等）。与此相反，活动可以认为是由并行，串行或者两者都有的动作组成。当前研究的潜在应用有视频索引和浏览，监控，视频引导接口和跟踪初始化。联合探测和动作定位在这里称为“行为发现”（参考在语音识别中的字定位）。行为发现是在一个含有大量未知动作集的较大的视频中检测并在时空上定位一段可以用小视频表示的动作（比如查询）。在当前的工作中使用一个预定义的动作模板的查询视频来进行行为发现已经取得一定的成果，但使用一组具有正反样本的训练序列还没有完成。相反行为识别将一个视频片断指定为一个由一组预定义行为中的某个特定类型。例如根据公共的皇家理工学院的，佛罗里达大学体育的，还有好莱坞的行为标准将一段查询视频分到六个，十个，或十二个类别中的一个来评价识别的性能。特别的，行为发现和识别被认为是不相交的行为。但是当前的方式将行为发现和识别在同一个框架下处理。 ?在行为发现和行为识别中主要的挑战是一个动作相关的动态行为会因为空间性的不同而导致图像灰度很大的不同，比如衣着的变化。另一个挑战是在自然图像中场景凌乱的情况需要在干扰中区分出相关的行为模式信息。杂乱会在两种类型：(i)复杂的背景，行为在一个复杂的，可能是动态的背景下描述。(ii)前景复杂，行为在干扰叠加下描述，比如动态的光照，伪透明度（比如在网丝墙下行走），时间映频混扰和天气影响（比如下雨或者下雪）。一般认为选择如何描述是解决这些问题的关键：这种仅仅空间上的行为描述允许行为可以独立于表演者的外表而被识别。这种好的时空结构描述可以在背景干扰下将行为信息区分出来。同样，在现实生活中的应用，比如，网络上的视频检索，计算复杂度是进一步的要求。图1 行为发现方法的概述 (a)一个包含感兴趣的孤立行为的模板和搜索视频作为输入；在从数据集KTH和MSR行为数据集得到如图所示的模板和搜索视频用一个盒子包围(b)时空能量滤波器应用根据三位(x,y,t)时空方向将输入视频分解成分布式的表示(c)以滑动窗口的方式，模板的方向能量分布和对应位置的搜索分布相比较得到(d)中的相似体积。最后，寻找相似体积中的局部最大值。极值的位置对应查询行为的时空位置。 ? ? ?为了当前的目的，局部时空定位是描述功能的基础。因为不考虑原始数据，即使在区分大范围的动态图像（比如单一动作，多次叠加的运动和临时的闪烁），它是相关数据结构占第一位的数据（比如不考虑底层的视觉现象）。相应的，视觉时空可以用三维数据来表示(x,y,t)：在时空中的每一个点的坐标与一个特定的时空坐标系的计算公布相关。在研究中这些不同的分布会做比较。图1，提供了一个给定行为发现算法的概况对于行为识别，一个未经修剪的视频组成查询视频和一组被标识的视频片断，这些视频片断包含时空上定位好的行为组成数据库。查询视频与数据库中的每一种行为比较，具有最大相似度值的行为标记作为类别被返回（参考【5】【6】【7】【8】）。另外，所提供的算法提供时空定位信息，注意定位的相关总是在行为识别的相关工作中一般是被忽略的。一个这类工作的预定义的描述在之前出现过。【9】 1.2相关工作在可视数据中分析人体行为已经做了大量的工作，比如，【11】【12】。这篇文章的组织方式是按照怎样描述行为来的。一个对描述方法简单的统计如下。 ?以跟踪为基础的方法以跟踪身体部分或者关节或者两者都有，然后按照从动作轨迹中提取的特点将动作分类，比如【13】【14】【15】【16】。自动计算的一般障碍包括跟