基于观众反馈学习个体动作偏好MAK方法研究.pdfVIP

下载本文档

0
0
约9.62万字
约 18页
2025-12-29 发布于北京
举报
版权申诉

基于观众反馈学习个体动作偏好MAK方法研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2017IEEE国际机器人与自动化会议（ICRA）新加坡，2017年5月29日至6月3日

从动作序列的观众反馈中学习动作偏好

1,212

JunyunTay,ManuelaVeloso和I‑MingChen

—机器人执行一系列动作以对给定输入进行动画化，有噪声的。例如，通过麦克风捕捉观众鼓掌声的音量，或

例如根据音乐跳舞或讲故事。每个输入都会被预处理以确定标通过相机捕捉观众的彩色提示来获取反馈时，由于背景噪

签，例如音乐的情绪或故事中的。每个对应多个动作，声（如交谈声或某些彩色衣服）的影响，结果会确。

每个动作也对应多个。因此，机器人可以选择多个动作序列

我们的方法——多臂与卡尔曼滤波（MAK）由

中的一条来对输入进行动画化。我们的目标是根据观众的偏好选

择最佳动作序列。观众对某些动作的偏好程度高于其他动作，而两个步骤组成。首先，我们使用多臂算法来选择

每个动作的偏好值最初是未知的。在动作序列结束时，观众需要查询反馈的序列，并使用卡尔曼滤波根据反馈估

的反馈是所有动作偏好值的总和。然而，由于用于捕捉观众反馈计各个的评分。当达到我们定义的停止条件时，

的设备存在噪声，因此反馈的观测值是有噪声的。为了选择最受MAK过程结束，并表明我们能够在不遍历所有可能序列

偏好的序列，机器人必须确定向观众查询的序列，从而从有噪声的情况下确定最佳序列。

的反馈观测中学习各个动作的偏好值。通过学习各个动作的偏好

值，就可以确定最受偏好的序列。此外，观众可能会对在多个序MAK方法与最小二乘回归进行比较，通过使

列中重复的相同单个动作感到厌倦，该动作的偏好值会根据用一个包含模拟中各个评分的黑盒来实现。通过模

其被的次数而降低。我们提出了MAK（多臂与卡尔拟，我们确保各个的偏好值在不考虑的情况下不

曼滤波器）方法，并表明在模拟实会变化，并且特定序列的反馈是一致的，但观测时带

验中，MAK在选择最佳序列方面优于最小二乘回归，并且具有噪声。多个序列可以表达预处理输入的。然

有更低的偏好值程度。而，我们只能通过一组序列查询黑盒，并获得该序列

的带噪声评分。我们展示了在不同场景下，我们的MAK

方法优于最小二乘回归，例如，观众每次时都会对运

I.引言动评分产生或不产生的情况。

机器人可以自主地将预处理的输入信号通过一系列动作进

行动画化。例如，机器人可以随着音乐[1]起舞，或自主地[2]

将一个故事进行动画化。给定一个带有的动作库，其中多II.相关工作

个动作对应于一个，那么就存在多种可能的动作序列来表观众的反馈范围包括使用视觉提示，例如观众手持

现该输入信号。在本文中，我们的目标是通过观众对某些动作

彩色标记物如桨板[3]，或音频反馈，例如观众的掌声、

序列的反馈，选择出最受观众欢迎的序列。

欢呼声，或互动结束时的[4]。Kni

您可能关注的文档

文档评论（0）

daluobu + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于观众反馈学习个体动作偏好MAK方法研究.pdfVIP