基于深度学习的动作识别研究与实现.pdfVIP

下载本文档

232
0
约9.94万字
约 75页
2020-08-28 发布于江苏
举报
版权申诉

基于深度学习的动作识别研究与实现.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要摘要随着人工智能与物联网的发展，人体动作识别在智能视频监控、智能人机交互、虚拟现实和运动分析等领域的需求日益增加。然而由于动作识别涉及多个学科且实际应用场景多变，一直是个充满挑战的研究方向。基于深度学习在图片分类任务取得的巨大成功，研究学者将其逐步应用到人体动作识别领域，但仍存在着动态特征不够高效、无法充分利用多模态信息等问题而无法实现实用化。为了充分挖掘动态特征以及利用多模态信息互补关系，本文着重研究高效的特征表达和特征融合来提升动作识别准确率。本文的主要贡献有三点：（1）基于光流有效性本质研究了一种人体轮廓特征来表征视频中的动态信息, 即人和物体轮廓特征（Human– Object Contour,HOC ）, 通过结合物体类别包含了更高阶的语义信息, 从而可以充分挖掘视频中的动态逻辑信息，优化光流动态特征。（2 ）研究了一种高效的多模态信息融合网络，即多模态有注意力的融合网络（Attentional Multi-modal Fusion Network,AMFN ）。借鉴集成学习中的层叠泛化思想，同时参考人类视觉的选择性注意力机制，结合每个视频本身特征决定不同模态应分配的注意力大小，实现了多模态信息的最大化利用。（3 ）嵌入式端实用化尝试。将HOC 特征应用在Jetson TX2 嵌入式开发板提升动作识别应用准确率，同时利用TensorRT 神经网络加速引擎实现推理过程的加速，有效提升了动作识别应用的实时性。实验结果表明：（1）HOC 动态特征与RGB 静态特征有效互补，在超过60% 的动作分类上都有提升；（2 ）结合HOC 特征和AMFN 网络，在动作识别数据集UCF101 （96.0%) 和HMDB51 （72.2% ）上取得了较佳表现；（3 ）在Jetson TX2 嵌入式平台结合 HOC 特征，初步实现了动作识别应用系统，并基于TensorRT 加速引擎将模型前向计算的速率由原先的27FPS 提升至153FPS。综上，实验结果达到了指标要求。关键词：动作识别，深度学习，特征表达，特征融合，视频理解 Abstract Abstract With the development of artificial intelligence and Internet of Things, human action recog- nition has great demand in video surveillance, human-computer interaction, virtual reality, mo- tion analysis and other fields. Based on the great success of image classification, researchers have applied the deep learning method to the field of action recognition. However, there are problems such as the fact that the dynamic characteristics are not efficient enough, the multi- modal information can not be fully utilized, and the application cannot be deployed. In order to fully exploit the temporal information and utilize complementarity of multiple modalities, efficient feature representation and feature fusion methods are studied to improve the accuracy of action recognition. There are three main contributions. (1) Firstly, a novel