AffectGPT-R1:利用强化学习进行开放词汇情感识别.pdfVIP

  • 0
  • 0
  • 约9.89千字
  • 约 5页
  • 2026-03-06 发布于北京
  • 举报

AffectGPT-R1:利用强化学习进行开放词汇情感识别.pdf

AffectGPT-R1:利用强化学习进行开放词汇情感识别

ZhengLian

InstituteofAutomation,ChineseAcademyofSciences

{lianzheng2016@}

Abstract

开放词汇多模态情感识别(OV-MER)旨在不被预定义标签空间限制的情况

下预测情感,使情感理解达到细粒度和类人水平。与传统的判别方法不同,

本OV-MER利用生成模型,如具有广泛词汇量的大语言模型(LLMs),来捕捉情

译感的全方位范围。先前的方法(例如AffectGPT)主要依赖于基于标记级别的

中损失进行训练。然而,这一目标并不符合OV-MER中使用的基于情感轮(EW)

的评估指标。遗憾的是,基于EW的指标无法通过梯度反向传播直接优化。本

1

v文提出了一种强化学习框架影响GPT-R1,该框架可以直接优化基于EW的

8指标性能。具体来说,我们将这些指标视为奖励函数,并采用组相对策略优

1

3化(GRPO)来最大化奖励。实验结果表明,AffectGPT-R1在OV-MER方面取

1得了显著改进。我们希望这项工作能够推进多模态情感识别领域的发展。我

0.们的代码将在以下地址公开提供:/zeroQiaoba/AffectGPT。

8

0

5

21介绍

:

v

i多模态情感识别(MER)是人工智能中的一个重要研究领域,在推进情感智能人机交互方面

x

r发挥着关键作用[1]。最近,开放式词汇表MER(OV-MER)作为一项有前景的研究方向出

a

现,旨在将情感识别从受限的情感类别转移到情感的全谱系上,从而实现更精细和更细微的

情感理解[2]。

为了适应这一范式转变,OV-MER从判别模型转向生成模型,利用大型语言模型(LLMs)的

广泛词汇来扩展情感识别的范围。同时,它引入基于情绪轮(EW)的指标,在评估过程中考虑

到不同情感词之间的语义关系。在模型优化中,先前的工作如影响GPT[3]采用令牌级损失

来对齐预测标签和真实标签。然而,这种方法存在一个严重的问题:令牌级损失与基于EW

的指标关联有限。例如,模型可能在令牌级损失较低的情况下,在基于EW的指标上表现不

佳。不幸的是,由于无法直接通过梯度反向传播优化基于EW的指标,这为模型训练带来了

重大挑战。

为了解决这些限制,我们提出了AffectGPT-R1,该方法使用基于EW的度量作为奖励函数,

并采用强化学习进行模型优化。这使得模型可以直接在基于EW的度量上得到优化。我们强

调这项工作与另一个基于RL的MER框架R1-Omni[4]不同。具体来说,R1-Omni专注于基

础情感识别,但AffectGPT-R1将任务转向了OV-MER。由于任务的不同,我们采用了不同的

奖励函数,并将主要目标从展示推理过程的必要性调整为强调在基于EW的度量上直接优化

的重要性。此外,我们的初步实验表明,R1-Omni在冷启动训练中使用的有限训练数据是不

Preprint.Underreview.

够的。相比之下,A

文档评论(0)

1亿VIP精品文档

相关文档