可穿戴计算机动态重构算法的研究.docVIP

  • 3
  • 0
  • 约4.15千字
  • 约 8页
  • 2018-10-14 发布于福建
  • 举报
可穿戴计算机动态重构算法的研究

可穿戴计算机动态重构算法的研究   摘要:可穿戴计算机已成为各行业解决特定问题新的手段,手势识别是许多可穿戴的重要应用。利用各类算法识别可穿戴设备的手势运动是该方面的主要研究内容,利用动态可重构算法-低复杂度复现神经网络(RNN)算法形成了两种动态手势识别技术。一种是基于视频信号,并采用卷积神经网络(CNN)和RNN的组合结构;另一个是利用RNN实现模拟加速度计数据,将大多数权重量化为两位的定点优化,以优化用于权重存储的存储器大小量,同时降低了系统硬件和软件的功耗。   关键词:可穿戴计算机;手势识别;可重构算法;神经网络;功耗   中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)12-0209-02   1 概述   可穿戴计算机就是利用先进计算技术实现特定的应用设备,当前,各专业公司根据市场需求制定了不同的智能穿戴设备,例如智能手表,Google Glass和智能乐队等。由于大多数可穿戴设备不配备键盘或宽触摸屏,所以非常需要采用语音或手势识别技术,虽然语音识别可以更通用,但手势识别也可以方便地用于发出简单的命令。在穿戴式设备中使用手势技术有几项研究和应用,例如,Google Glass[1]中采用手脚动作进行控制,智能手表[2]采用灵活力传感器进行控制,SixthSense[3]使用相机和投影机与现实世界进行交互。   根据实际应用需求,通常手势可以分为静态和动态两种。静态手势通常由手形表示,而动态手势根据手的动作进行描述[4]。可以使用?碜韵嗷?或力传感器的信号来进行手势识别,前者需要视频处理,后者通过时变多通道传感器的输出信号进行分析,那么动态手势识别就是采用力传感器。   近来,国内外学者研究了几类手势识别算法。采用两个视频之间的相关性,采用张量规范相关分析(TCCA);基于卷积神经网络(CNN),利用视频分析实现人机交互(HRI)实现静态手势识别;使用深度视频、关节姿势和音频流来研究多模态手势检测和识别,该文献中应用CNN,以及隐马尔可夫模型(HMM)的语音识别器和单词包(BoW)来提取多模态特征,并且使用了一个Elman RNN进行数据融合和手势分类。来自Leap Motion Controller的红外LED数据,其中CNN用于特征提取,采用HMM进行时间序列识别。   动态可重构算法结合神经网络被用于许多识别应用,包括对象检测和语音识别。然而,神经网络需要大量的计算和大的缓存记忆。例如,单位大小为256的长短期存储器(LSTM)RNN需要总共约210M权重,因此,目前的一些可穿戴设备应用程序(如语音识别)使用采用图形处理单元(GPU)或大功率的多核系统服务器进行操作,所以在实际应用中,穿戴式装置在仅具有小功率的情况下操作神经网络算法是非常需要的。   本文开发了使用适用于硬件或嵌入式系统实现和低功耗操作的定点循环神经网络的动态姿态识别技术,实现两种手势识别算法:一个使用来自相机的视频信号,另一个使用三轴加速度计。   2 固定点的RNN优化   本文采用两种不同种类的动态手势数据集。一个是基于图像序列,另一个是三轴加速度数据。一下分别对不同的动态手势算法进行优化。   2.1 基于图像序列的动态手势识别   对于基于图像序列的动态手势识别任务,本文采用CNN-LSTM RNN结构,为了产生手形特征,选择三层CNN架构的平移不变性。具体网络结构如图1所示,图中层次分别为输入层、汇集层以及RNN层。输入层由用于处理具有RGB通道的32×32输入图像的3072(= 3×32×32)线性单位组成,第一和第二卷积层具有32个特征图,第三卷积层具有64个特征图,这三层具有相同的卷积核大小,即5×5,三个层叠层采用2×2重叠最大池;LSTM RNN可以记录序列中相当长的过去信息,因此,在该识别模型中不需要HMM网络,输出层由9个对应于9个目标手势行为的softmax单位组成。32位浮点格式的网络模型需要总共需要0.714 MB(分别为CNN和RNN的79.2K和99.456 K的权重)内存空间。   如图1所示中,前缀“C”,“S”和“L”分别表示卷积,子采样和LSTM层。前缀“IG”,“FG”,“OG”表示LSTM层的输入门,忘记门和输出门。 “IN-C1”,“S1-C2”,“S2-C3”,“S3-L1”,“L1”和“L1-Out”显示灵敏度分析的权重组。虚线和实线分别表示反复和正向路径。   2.2 加速度数据序列动态手势识别   基于加速度数据序列的动态手势识别模型也采用了LSTM RNN结构,标准LSTM使用三个门控机制,称为输入门、忘记门及输出门,分别可以访问和修改存储单元。这三个门的激活功能是逻辑S形,LSTM的输入和输出层采用双曲正切激活函数,

文档评论(0)

1亿VIP精品文档

相关文档