一种基于头部姿态分析注意力目标的概率推理模型 - 人机交互与媒体 .pdf

下载文档 降价啦

44
0
约1.96万字
约 8页
2017-08-11 发布于天津
举报
版权申诉
保障服务

一种基于头部姿态分析注意力目标的概率推理模型 - 人机交互与媒体 .pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种基于头部姿态分析注意力目标的概率推理模型 - 人机交互与媒体

一种基于头部姿态分析注意力目标的概率推理模型董力赓陶霖密徐光　清华大学计算机科学与技术系，普适计算教育部重点实验室，北京 100084 摘要：本文提出了一种在智能厨房中基于头部姿态分析注意力目标的概率推理模型。在厨房工作台前的墙壁上装有多个投影显示屏显示菜谱等相关信息，用户可能站在柜台前的多个地方观看这些内容。我们的目标是识别出用户当前正在注视哪个显示屏，从而了解用户所感兴趣的内容。本文提出了一种动态贝叶斯网模型来推理用户的注意力目标，该模型融合了多注意力目标、多用户位置，多摄像机人脸图像等因素之间的关系并进行联合推理。我们通过人脸图像与多个人脸类别的相似度向量对头部姿态进行度量而没有显式的计算具体的头部姿态值。我们在智能厨房原型环境下采集了测试数据，实验结果表明我们的模型是有效的。关键词：视觉注意力目标；动态贝叶斯网；智能厨房 1．引言 1 [1] 基于用户注意力的系统在很多领域的人机交互中有所应用，其中视觉注意力目标 (Visual focus of attention, VFOA) 特指用户眼睛所注意的目标。在人机交互中，通过理解用户视觉注意力目标，可以理解用户的兴趣或者意图，从而给用户提供相应的主动服务。本文研究在智能厨房中如何推理用户的注意力目标。智能厨房是一个在厨房中安装了摄像头、投影显示屏等设备并能够提供普适计算服务的智能空间。其工作台后的墙壁上装有多个投影显示屏，上面可以显示菜谱、饭菜制作指南等相关信息。当用户准备做饭时，不同的显示屏会显示不同的菜谱。用户浏览不同的菜谱后会仔细阅读其最感兴趣的菜谱。通过分析用户长时间注视的目标，智能环境就可以知道其对哪个显示屏上的内容感兴趣，从而可以提供主动服务，比如进一步在多个显示屏上显示该菜谱的详细制作步骤，给用户提供帮助。视觉注意力与头部姿态和人眼视线方向有关。研究[2]表明，在很多情况下通过头部姿态足以分析用户的注意力目标。因为用户并不习惯于长时间斜着眼睛盯着某个目标，而会将头转过去正视该目标。此外，从应用的角度，智能厨房环境中采集到的图像分辨率较低，所以精确估计人眼视线方向非常困难。因此本文采用头部姿态分析用户的注意力目标。智能厨房环境中分析注意力目标需要考虑以下几个因素。第一，用户可能站在厨房工作台前的多个地方，并观看多个投影显示屏。因此需要考虑用户和显示屏之间的位置关系。第二，为了能够拍摄到用户在不同位置的图像，我们在墙上的屏幕之间安装了 3 个摄像机，他们会拍摄到不同角度的用户人脸。因此需要考虑如何融合多摄像机的信息，而不是仅仅使用单摄像机的信息。第三，因为用户的头部姿态可能包括正面和全侧面的姿态而不仅仅是接近正面的姿态，所以需要跟踪大范围姿态变化的人脸并根据跟踪结果识别用户注意力目标。资助项目：中国自然科学基金60873266）联系作者：董力赓，E-mail ：dongligeng@ 267 人机交互学术会议最近几年越来越多的研究者开始研究视觉注意力目标的识别问题。Stiefelhagen[3]等人研究了在小型圆桌会议环境下用户的注意力目标识别问题，会议桌上放置了一个全方向的摄像机。他们后来研究了在多个远距离摄像机环境下识别注意力目标的方法[4] 。S. Ba [5] 和 Otsuka [6]也研究了在不同会议环境下的注意力目标识别问题。然而，会议环境下用户主要坐在固定的座位上，其身体并没有多少移动。K. Smith [7] 研究了户外环境下的注意力目标识别问题，他们主要分析路过的行人是否观看了墙上的海报。然而他们的注意力目标只有一个。Zhang [8] 等人也在户外环境下监控用户的注意力目标，但是他们的头部姿态范围仅局限在接近正面的人脸姿态。这些工作主要处理固定位置下多注意力目标的分析，或者多用户位置下单个注意力目标的分析。然而，我们的应用环境包括多用户位置和多注意力目标。先前这些工作通常需要采用某些专门的方法来估计用户的头部姿态，包括基于 3D 模型或者基于2D 表观模型的方法。