浅议视频中人体行为识别.docVIP

下载本文档

1
0
约2.82千字
约 5页
2017-11-26 发布于福建
举报
版权申诉

浅议视频中人体行为识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅议视频中人体行为识别

浅议视频中人体行为识别　　【摘要】在真实的世界里，存在着复杂的场景以及不同视角等情况，计算机识别人体行为不是简单的事情。计算机几乎很难知道对于人体行为会具有什么样的特征，因为特征的选择与具体的问题高度依赖。特别是行为识别上，不同的行为类型在外观和行为模型上都呈现出非常大的不同。【关键词】视频行为识别检测近年来，各种视频监控越来越深入我们的生活中。因其实时性、直观性以及设备成本日益降低在各行各业中而倍受青睐。但视频监控系统还是依靠人工来控制，没有进入数字化的全天实时监测、智能分析图像数据。要实现完全数字化的监控的关键在于人体行为的智能识别。早些时候有人提出并且应用了智能图像识别的卷积神经网络，它是在原始的输入中应用可训练的滤波器和局部邻域池化操作，来得到一个分级的且逐渐复杂的特征表示。实践表示，采用合适的规则化项来训练，它可以达到非常好的效果。比较好的地方是对姿势、光照和复杂背景存在不变性，单只受限在2D输入的舞台。本文文章提出了一个新的3D卷积神经网络模型，用于运动识别。该模型可以从空间和时间的维度提取特征，然后进行3D卷积，以捕捉从多个连续帧得到的运动信息。为了有效的综合运动信息，文中通过在卷积神经网络的卷积层进行3D卷积，以捕捉空间上、时间上的维度，让其都具有区分性的特征。 3D卷积是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核。在其中，卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连，以捕捉运动信息。一个卷积map的某一位置的值是通过卷积上一层的三个连续的帧的同一个位置的局部感受得到的。要强调的是：3D卷积核只能从cube中提取一种类型的特征，因为在整个cube中卷积核的权值都是一样的，也就是共享权值，都是同一个卷积核。可以采用多种卷积核，以提取多种特征。有一个通用的设计规则就是：在后面的层（离输出层近的）特征map的个数应该增加，这样就可以从低级的特征maps组合产生更多类型的特征。本文中的3D 卷积神经网络架构包含一个硬连线hardwired层、3个卷积层、2个下采样层和一个全连接层。每个3D卷积核卷积的立方体是连续7帧，每帧patch大小是60x40。在第一层，应用了一个固定的hardwired的核去对原始的帧进行处理，产生多个通道的信息，然后对多个通道分别处理。最后再将所有通道的信息组合起来得到最终的特征描述。这个实线层实际上是编码对特征的先验知识，这比随机初始化性能要好。每帧提取五个通道的信息，分别是：灰度、x和y方向的梯度，x和y方向的光流。其中，前面三个都可以每帧都计算。然后水平和垂直方向的光流场需要两个连续帧才确定。所以是7x3 + （7-1）x2=33个特征maps。然后用一个7x7x3的3D卷积核（7x7在空间，3是时间维）在五个通道的每一个通道分别进行卷积。为了增加特征map的个数（实际上就是提取不同的特征），在每一个位置都采用两个不同的卷积核，这样在C2层的两个特征maps组中，每组都包含23个特征maps。23是（7-3+1）x3+（6-3+1）x2前面那个是：七个连续帧，其灰度、x和y方向的梯度这三个通道都分别有7帧，然后水平和垂直方向的光流场都只有6帧。54x34是（60-7+1）x（40-7+1）。在紧接着的下采样层S3层max pooling，在C2层的特征maps中用2x2窗口进行下采样，这样就会得到相同数目但是空间分辨率降低的特征maps。下采样后，就是27x17=（52/2）*（34/2）。 C4是在5个通道中分别采用7x6x3的3D卷积核。为了增加特征maps个数，在每个位置都采用3个不同的卷积核，这样就可以得到6组不同的特征maps，每组有13个特征maps。13是（（7-3+1）-3+1）x3+（（6-3+1）-3+1）x2前面那个是：七个连续帧，其灰度、x和y方向的梯度这三个通道都分别有7帧，然后水平和垂直方向的光流场都只有6帧。21x12是（27-7+1）x（17-6+1）。 S5层用的是3x3的下采样窗口，所以得到7x4. 到这个阶段，时间维上帧的个数已经很小了。在这一层，只在空间维度上面卷积，这时候使用的核是7x4，然后输出的特征maps就被减小到1x1的大小。而C6层就包含有128个特征map，每个特征map与S5层中所有78（13x6）个特征maps全连接，这样每个特征map就是1x1，也就是一个值了，而这个就是最终的特征向量了。经过多层的卷积和下采样后，每连续7帧的输入图像都被转化为一个128维的特征向量，这个特征向量捕捉了输入帧的运动信息。输出层的节点数与行为的类型数目一致，而且每个节点与C6中这128个节点是全连接的。采用一个线性分类器来对这128维的