可穿戴计算机动态重构算法研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
可穿戴计算机动态重构算法研究   摘要:可穿戴计算机已成为各行业解决特定问题新的手段,手势识别是许多可穿戴的重要应用。利用各类算法识别可穿戴设备的手势运动是该方面的主要研究内容,利用动态可重构算法-低复杂度复现神经网络(RNN)算法形成了两种动态手势识别技术。一种是基于视频信号,并采用卷积神经网络(CNN)和RNN的组合结构;另一个是利用RNN实现模拟加速度计数据,将大多数权重量化为两位的定点优化,以优化用于权重存储的存储器大小量,同时降低了系统硬件和软件的功耗。   关键词:可穿戴计算机;手势识别;可重构算法;神经网络;功耗   中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)12-0209-02   1 概述   可穿戴计算机就是利用先进计算技术实现特定的应用设备,当前,各专业公司根据市场需求制定了不同的智能穿戴设备,例如智能手表,Google Glass和智能乐队等。由于大多数可穿戴设备不配备键盘或宽触摸屏,所以非常需要采用语音或手势识别技术,虽然语音识别可以更通用,但手势识别也可以方便地用于发出简单的命令。在穿戴式设备中使用手势技术有几项研究和应用,例如,Google Glass[1]中采用手脚动作进行控制,智能手表[2]采用灵活力传感器进行控制,SixthSense[3]使用相机和投影机与现实世界进行交互。   根据实际应用需求,通常手势可以分为静态和动态两种。静态手势通常由手形表示,而动态手势根据手的动作进行描述[4]。可以使用?碜韵嗷?或力传感器的信号来进行手势识别,前者需要视频处理,后者通过时变多通道传感器的输出信号进行分析,那么动态手势识别就是采用力传感器。   近来,国内外学者研究了几类手势识别算法。采用两个视频之间的相关性,采用张量规范相关分析(TCCA);基于卷积神经网络(CNN),利用视频分析实现人机交互(HRI)实现静态手势识别;使用深度视频、关节姿势和音频流来研究多模态手势检测和识别,该文献中应用CNN,以及隐马尔可夫模型(HMM)的语音识别器和单词包(BoW)来提取多模态特征,并且使用了一个Elman RNN进行数据融合和手势分类。来自Leap Motion Controller的红外LED数据,其中CNN用于特征提取,采用HMM进行时间序列识别。   动态可重构算法结合神经网络被用于许多识别应用,包括对象检测和语音识别。然而,神经网络需要大量的计算和大的缓存记忆。例如,单位大小为256的长短期存储器(LSTM)RNN需要总共约210M权重,因此,目前的一些可穿戴设备应用程序(如语音识别)使用采用图形处理单元(GPU)或大功率的多核系统服务器进行操作,所以在实际应用中,穿戴式装置在仅具有小功率的情况下操作神经网络算法是非常需要的。   本文开发了使用适用于硬件或嵌入式系统实现和低功耗操作的定点循环神经网络的动态姿态识别技术,实现两种手势识别算法:一个使用来自相机的视频信号,另一个使用三轴加速度计。   2 固定点的RNN优化   本文采用两种不同种类的动态手势数据集。一个是基于图像序列,另一个是三轴加速度数据。一下分别对不同的动态手势算法进行优化。   2.1 基于图像序列的动态手势识别   对于基于图像序列的动态手势识别任务,本文采用CNN-LSTM RNN结构,为了产生手形特征,选择三层CNN架构的平移不变性。具体网络结构如图1所示,图中层次分别为输入层、汇集层以及RNN层。输入层由用于处理具有RGB通道的32×32输入图像的3072(= 3×32×32)线性单位组成,第一和第二卷积层具有32个特征图,第三卷积层具有64个特征图,这三层具有相同的卷积核大小,即5×5,三个层叠层采用2×2重叠最大池;LSTM RNN可以记录序列中相当长的过去信息,因此,在该识别模型中不需要HMM网络,输出层由9个对应于9个目标手势行为的softmax单位组成。32位浮点格式的网络模型需要总共需要0.714 MB(分别为CNN和RNN的79.2K和99.456 K的权重)内存空间。   如图1所示中,前缀“C”,“S”和“L”分别表示卷积,子采样和LSTM层。前缀“IG”,“FG”,“OG”表示LSTM层的输入门,忘记门和输出门。 “IN-C1”,“S1-C2”,“S2-C3”,“S3-L1”,“L1”和“L1-Out”显示灵敏度分析的权重组。虚线和实线分别表示反复和正向路径。   2.2 加速度数据序列动态手势识别   基于加速度数据序列的动态手势识别模型也采用了LSTM RNN结构,标准LSTM使用三个门控机制,称为输入门、忘记门及输出门,分别可以访问和修改存储单元。这三个门的激活功能是逻辑S形,LSTM的输入和输出层采用双曲正切激活函数,该

文档评论(0)

聚文惠 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档