AffectGPT-R1：利用强化学习进行开放词汇情感识别.pdfVIP

下载本文档

0
0
约9.89千字
约 5页
2026-03-06 发布于北京
举报

AffectGPT-R1：利用强化学习进行开放词汇情感识别.pdf

AffectGPT-R1：利用强化学习进行开放词汇情感识别

ZhengLian

InstituteofAutomation,ChineseAcademyofSciences

{lianzheng2016@}

Abstract

开放词汇多模态情感识别（OV-MER）旨在不被预定义标签空间限制的情况

下预测情感，使情感理解达到细粒度和类人水平。与传统的判别方法不同，

本OV-MER利用生成模型，如具有广泛词汇量的大语言模型（LLMs），来捕捉情

译感的全方位范围。先前的方法（例如AffectGPT）主要依赖于基于标记级别的

中损失进行训练。然而，这一目标并不符合OV-MER中使用的基于情感轮（EW）

的评估指标。遗憾的是，基于EW的指标无法通过梯度反向传播直接优化。本

v文提出了一种强化学习框架影响GPT-R1，该框架可以直接优化基于EW的

8指标性能。具体来说，我们将这些指标视为奖励函数，并采用组相对策略优

3化（GRPO）来最大化奖励。实验结果表明，AffectGPT-R1在OV-MER方面取

1得了显著改进。我们希望这项工作能够推进多模态情感识别领域的发展。我

0.们的代码将在以下地址公开提供：/zeroQiaoba/AffectGPT。

21介绍

i多模态情感识别（MER）是人工智能中的一个重要研究领域，在推进情感智能人机交互方面

r发挥着关键作用[1]。最近，开放式词汇表MER（OV-MER）作为一项有前景的研究方向出

现，旨在将情感识别从受限的情感类别转移到情感的全谱系上，从而实现更精细和更细微的

情感理解[2]。

为了适应这一范式转变，OV-MER从判别模型转向生成模型，利用大型语言模型(LLMs)的

广泛词汇来扩展情感识别的范围。同时，它引入基于情绪轮(EW)的指标，在评估过程中考虑

到不同情感词之间的语义关系。在模型优化中，先前的工作如影响GPT[3]采用令牌级损失

来对齐预测标签和真实标签。然而，这种方法存在一个严重的问题：令牌级损失与基于EW

的指标关联有限。例如，模型可能在令牌级损失较低的情况下，在基于EW的指标上表现不

佳。不幸的是，由于无法直接通过梯度反向传播优化基于EW的指标，这为模型训练带来了

重大挑战。

为了解决这些限制，我们提出了AffectGPT-R1，该方法使用基于EW的度量作为奖励函数，

并采用强化学习进行模型优化。这使得模型可以直接在基于EW的度量上得到优化。我们强

调这项工作与另一个基于RL的MER框架R1-Omni[4]不同。具体来说，R1-Omni专注于基

础情感识别，但AffectGPT-R1将任务转向了OV-MER。由于任务的不同，我们采用了不同的

奖励函数，并将主要目标从展示推理过程的必要性调整为强调在基于EW的度量上直接优化

的重要性。此外，我们的初步实验表明，R1-Omni在冷启动训练中使用的有限训练数据是不

Preprint.Underreview.

够的。相比之下，A

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

AffectGPT-R1：利用强化学习进行开放词汇情感识别.pdfVIP