- 0
- 0
- 约9.89千字
- 约 5页
- 2026-03-06 发布于北京
- 举报
AffectGPT-R1:利用强化学习进行开放词汇情感识别
ZhengLian
InstituteofAutomation,ChineseAcademyofSciences
{lianzheng2016@}
Abstract
开放词汇多模态情感识别(OV-MER)旨在不被预定义标签空间限制的情况
下预测情感,使情感理解达到细粒度和类人水平。与传统的判别方法不同,
本OV-MER利用生成模型,如具有广泛词汇量的大语言模型(LLMs),来捕捉情
译感的全方位范围。先前的方法(例如AffectGPT)主要依赖于基于标记级别的
中损失进行训练。然而,这一目标并不符合OV-MER中使用的基于情感轮(EW)
的评估指标。遗憾的是,基于EW的指标无法通过梯度反向传播直接优化。本
1
v文提出了一种强化学习框架影响GPT-R1,该框架可以直接优化基于EW的
8指标性能。具体来说,我们将这些指标视为奖励函数,并采用组相对策略优
1
3化(GRPO)来最大化奖励。实验结果表明,AffectGPT-R1在OV-MER方面取
1得了显著改进。我们希望这项工作能够推进多模态情感识别领域的发展。我
0.们的代码将在以下地址公开提供:/zeroQiaoba/AffectGPT。
8
0
5
21介绍
:
v
i多模态情感识别(MER)是人工智能中的一个重要研究领域,在推进情感智能人机交互方面
x
r发挥着关键作用[1]。最近,开放式词汇表MER(OV-MER)作为一项有前景的研究方向出
a
现,旨在将情感识别从受限的情感类别转移到情感的全谱系上,从而实现更精细和更细微的
情感理解[2]。
为了适应这一范式转变,OV-MER从判别模型转向生成模型,利用大型语言模型(LLMs)的
广泛词汇来扩展情感识别的范围。同时,它引入基于情绪轮(EW)的指标,在评估过程中考虑
到不同情感词之间的语义关系。在模型优化中,先前的工作如影响GPT[3]采用令牌级损失
来对齐预测标签和真实标签。然而,这种方法存在一个严重的问题:令牌级损失与基于EW
的指标关联有限。例如,模型可能在令牌级损失较低的情况下,在基于EW的指标上表现不
佳。不幸的是,由于无法直接通过梯度反向传播优化基于EW的指标,这为模型训练带来了
重大挑战。
为了解决这些限制,我们提出了AffectGPT-R1,该方法使用基于EW的度量作为奖励函数,
并采用强化学习进行模型优化。这使得模型可以直接在基于EW的度量上得到优化。我们强
调这项工作与另一个基于RL的MER框架R1-Omni[4]不同。具体来说,R1-Omni专注于基
础情感识别,但AffectGPT-R1将任务转向了OV-MER。由于任务的不同,我们采用了不同的
奖励函数,并将主要目标从展示推理过程的必要性调整为强调在基于EW的度量上直接优化
的重要性。此外,我们的初步实验表明,R1-Omni在冷启动训练中使用的有限训练数据是不
Preprint.Underreview.
够的。相比之下,A
您可能关注的文档
- 使用混合深度学习模型对脑肿瘤进行分类.pdf
- 关于宽带 ODDM 系统中多普勒斜视的特征与评估.pdf
- 通过对抗引导课程采样增强基于扩散的数据集蒸馏.pdf
- 具有风险保证的故障检测中的校准预测集通过显著性检验.pdf
- WIP:通过 AI 驱动的同伴代理增强基于游戏的学习.pdf
- RoboLinker: 一种基于扩散模型的人类与陪伴机器人之间的匹配服装生成器.pdf
- CSIRO-LT 在 SemEval-2025 任务 11 中:适应多语言情感识别的大型语言模型.pdf
- Q8bot 的设计:一款采用零电线构建的微型低成本动态四足机器人.pdf
- 结构化谱图学习在 3D 胸部 CT 扫描中的异常分类.pdf
- CAD 设计师: 基于通用代理的 CAD 模型的概念设计.pdf
原创力文档

文档评论(0)