基于Kinect人体行为识别.docx

下载文档

21
0
约1.91千字
约 5页
2017-12-17 发布于河南
举报
版权申诉
保障服务

基于Kinect人体行为识别.docx

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于Kinect人体行为识别

基于Kinect人体行为识别绪论1.研究背景与意义人体行为分析是计算机视觉中的一个重要研究课题,其应用包括智能视频监控、虚拟现实和人与电子设备进行交互的各种系统。这些应用领域多数需要对人体行为进行检测、跟踪和自动识别。传统的人体行为分析方法大都建立在二维彩色图像问题上研究,但在实际应用中仍存在很多困难,如背景扰动、环境变化对人体目标检测的干扰,数据信息量和特征降维算法对特征提取问题的影响等等。近年来,诸多研究者将图像深度信息和彩色信息融合,提出了很多识别方法。例如：Kinect等深度传感器就不仅提供彩色图像数据，还提供了三维深度图像信息。用三维深度图像记录物体与体感器之间的距离，使得获取的信息更加丰富。本文是通过Kinect平台获得的人体动作信息来开展人体行为识别方法的实验研究。因此，在使用Kinect动作捕获设备之前，了解Kinect设备的基本结构和获取人体三维关节点数据的原理是研究工作中的一个重要环节。2.Kinect平台介绍Kinect是美国微软公司于2010年11月4日推出的XBOX360游戏机体感周边外设的正式名称，起初名为Natal，意味初生。它实际上是一种3D体感摄影机，利用即时动态捕捉、影像辨识、麦克风输入、语音辨识、社群互动等功能让玩家摆脱传统游戏手柄的束缚，通过自己的肢体控制游戏，并且实现与互联网玩家互动，分享图片、影音信息。Kinect设备的结构如图所示。它的摄像头由RGB摄像头，红外摄像头和红外发射器组成。Kinect设备通过RGB摄像头来获取彩色图像，通过红外发射器和红外摄像机组合起来获取深度图像，并记录被测物体与动作捕获设备之间的距离，使获取的信息更加丰富。在摄像头的下方有一排阵列式麦克风，它可以捕获声音并定位声源。在Kinect的基座和摄像头之间有一个可以用来调节摄像头俯仰角的马达，借此来增加摄像头的视野范围。Kinect可以通过USB接口实现与计算机的连接。Kinect设备结构图：通过Kinect识别人体行为信息，我们首先要建立一个三维坐标系。Kinect的三维坐标系如图所示。假设人体面对Kinect设备站立，以红外摄像机为原点，X轴正方向指向人体右侧，Y轴正方向指向人体的正上方，Z轴正方向与Kinect设备的检测方向一致。Kinect三维空间坐标系：3.Kinect获取人体三维关节点数据的原理Kinect采用基于光编码理论的技术，通过连续光对测量空间进行编码，然后经感应器解码，来获取深度数据流中的深度图像。而每一个深度图像的像素点都包含了三维空间的深度信息，在排除噪声干扰后，就可以识别人体各个关节点在三维坐标系中的位置信息。Kinect设备在获取三维关节点数据时主要分为三个步骤：第一步是人体轮廓分割，判断深度图像上的每个像素是否属于某一个用户，过滤背景像素。第二步是人体部位识别，通过骨架拟合的方法，从深度图像分割出来的人体轮廓中识别人体的不同部位，例如头部，躯干，四肢等肢体部位。第三步是关节定位，根据每一个可能的像素点，从人体部位中定位20个关节点。Kinect捕获的人体20个关节点如图所示：Kinect捕获的人体20个关节点人体行为识别方法人体行为识别方法大致可分为两类：模板匹配法和状态空间法模板匹配法是一种最常用的人体行为识别方法，它在模式识别领域应用较为普遍。其核心思想是从动态模板序列中提取出相关的行为特征转化成一组静态序列模板，再将这组模板与已知模板进行匹配。其中最典型的方法是K最邻近法和动态时间规整法。其优点是不需要大量样本，计算简单，容易实现。缺点是对噪声和行为持续时间间隔变化较为敏感。而状态空间法是将人体动作序列的每一个静态姿态作为一个状态，这些状态可以在时间和空间尺度上发生转换。人体动作序列可以看成是这些静态姿态在不同状态中的一次遍历。计算这个遍历过程的联合概率，将联合概率的最大值作为人体行为分类的标准。但这种方法需进行大量的迭代运算，计算过于复杂，因此难以在实际工作中得到应用。人体行为识别从内容上可分为静态姿态识别和不包含静态姿态的动态动作识别。静态姿态识别是指对单个姿态的识别，例如人在喝水时，一定包含用手把杯子放到嘴边这一典型静态姿态。那么就可以通过识别这一典型动作来判断人是否在喝水。因此，典型静态姿态的识别可以被用来识别动态的过程。但由于实际场景中人体各部位的随意性很大，如同样是人体走路行为，大多数人走路时是双手在体侧小幅摆动的。但有些人习惯边走路边打电话，有些人喜欢边打篮球边走路，这就为人体行为识别带来误判。而不包含典型静态姿态的动态动作识别是指对一个完整动作序列的识别过程。