利用金字塔词汇树木人类动作识.docVIP

  • 0
  • 0
  • 约8.41千字
  • 约 10页
  • 2019-03-03 发布于福建
  • 举报
PAGE PAGE 9 大连民族学院 毕业设计(论文)翻译材料 学 院: 计算机科学与工程 专 业: 班 级: 学生姓名: 指导教师: 金字塔词汇树的人类动作识别 袁春峰,李曦,胡卫明,王菡子 模式识别国家重点实验室,中国科学院自动化研究所,北京,中国 {cfyuan, lixi, wmhu}@ 计算机科学学院,阿得雷德大学,SA 5005,澳大利亚 wang.hanzi @ wang.hanzi@ 摘要 视觉词袋(BOVW)方法被广泛用于人类行为的认可。?通常情况下,当小词汇的BOXW对于噪音更坚固的同时,大词汇量的BOVW在类间的动作分类更有区别性,因此大词汇的BOVW更能忍耐类内的不变性。在这篇文章中,我们提出了一种金字塔词汇树来模拟局部时空特征,这种金字塔词汇树可以描述类间的差异,同时也承认内部类的变化。此外,由于BOVW是几何形状不受限制,我们进一步考虑时空信息的局部特征,并提出了一种稀疏时空空间金字塔匹配内核(称为作SST-PMK)来计算视频序列之间的相似性测度。SST-PMK满足Mercer条件,因此很容易集成SVM进行动作识别。魏兹曼数据集上的实验结果表明,金字塔的词汇树和SST-PMK都能在人类动作识别方面有明显地提高。 关键词:动作识别,视觉词袋(BOVW),金字塔匹配的内核(PMK) 1引言 由于人类动作识别在智能监控,人机接口,视频索引及浏览,体育事件的自动分析和虚拟现实上的关键值,它已受到越来越多的关注。?但是,人类动作识别也存在许多难题,包括闭塞,光照变化,以及在规模、旋转和角度上的几何变化。 在一般情况下,动作识别方法可以大致分类为基于模板的方法和基于外观的方法[1]。基于模板的方法,存在着两类模板。?第一次排序的模板直接使用几个关键帧或分段的补丁的输入视频,如[6,8]中描述的。第二个排序的模板是通过输入视频的线性或非线性的转换得到。?例如,Rodriguez等。[9]结合序列的训练图像通过MACH过滤器组合成一个单一的复合模板。?对于基于外观的方法,局部特征或全局(或大型)特征采用代表视频。?一般情况下,当地的时空功能是比大规模特征有更强大的噪声,闭塞和行为变化。 图1 兴趣点定位在魏茨曼科学数据集的10个行动视频序列 每个红色点对应一个与检测到的兴趣点相关联的视频补丁。其中一个关键帧显示出该视频中检测到的每个视频和所有的兴趣点上是相互重叠的关键帧。 最近,几个最先进的动作识别方法[2,3,4,5,17,19]使用BOVW,开发本地的时空特征。?通常情况下,这些方法首先生成一个视觉词汇,然后塑造配有视觉字数直方图的视频。很明显在动作识别过程中,词汇起着决定性的作用。一个很好的词汇不仅辨别出事物或行动的类间不变性,也能包容事物或行动的类内不变性。选择一个适当的大词汇量的型号是常见的[4,10]。?然而,大尺寸的词汇可能为每段视频引入稀疏直方图,并且带来更多的噪音,减弱了词汇的最大区辨。另一方面,如果词汇型号是小的,它可能会导致群集和高内部类失真。?出于这些观察,我们提出了一种新的词汇架构——金字塔词汇树,它结合了词汇的不同尺寸的同时也开发了一种更大更有效的辨别词汇。此外,在树结构上突出新功能的速度是很快的。?在金字塔词汇树中,视频序列分层地出现例如词汇树的多分辨率直方图。 此外,众所周知BOVW方法是几何不受约束的。因此,许多运算法则打算把几何信息与BOVW结合起来。一些方法[13,15]把3D空间均匀地划分成时空方格,然后在每个网格计算本地功能的直方图。?然而,在的人类动作影片中,兴趣点通常在某些局部区域被发现,而大多数其他地区不包含兴趣点(图1所示)。?通过这种观察的启发,我们把兴趣点集中在时空的空间,形成几个聚类中心。?在每个群集中心,我们计算局部特征的直方图。基于时空聚类中心,我们提出了一个稀疏的时空金字塔匹配的内核(称为SST-PMK)之间的相似性度量的视频序列。在SST-PMK,用于表示视频的直方图比在[13,15]中更紧凑更坚固。?因此,通过SST-PMK计算的距离更加可靠。?此外,SST-PMK满足了Mercer条件并且可以直接作为SVM内核去执行动作识别。 在一般情况下,在稀疏时空表示动作识别的金字塔词汇树的基础上,我们提出了一个新的框架。建立金字塔树是用来模仿局部特征,并且为了计算SST-PMK准备了一个层次结构。?此外,SST-PMK有效整合各级金字塔词汇树获得的距离来计算视频序列和很快速度之间的相似性。 本文的其余部分安排如下。?第2部分介绍了如何生成金字塔词汇树。第3部分介绍SST-PMK,然后与SVM分

文档评论(0)

1亿VIP精品文档

相关文档