QAMRO:质量感知自适应边际排序优化用于与人类对齐的音频生成系统评估.pdfVIP

  • 0
  • 0
  • 约2.28万字
  • 约 5页
  • 2026-03-06 发布于北京
  • 举报

QAMRO:质量感知自适应边际排序优化用于与人类对齐的音频生成系统评估.pdf

QAMRO:质量感知自适应边际排序优化用于

与人类对齐的音频生成系统评估

Chien-ChunWang,Kuan-TangHuang,Cheng-YehYang,Hung-ShinLee,Hsin-MinWang,andBerlinChen

Dept.ComputerScienceandInformationEngineering,NationalTaiwanNormalUniversity,Taiwan

InstituteofComputerScience,AcademiaSinica,Taiwan

UnitedLinkCo.,Ltd.,Taiwan

摘要—评估音频生成系统,包括文本到音乐(TTM)、文本模型的预测误差。然而,这些方法没有考虑样本之间的

到语音(TTS)和文本到音频(TTA),由于人类感知的主观性相对排名,这是感知评估的一个关键组成部分。绝对

本和多维性而仍然具有挑战性。现有方法将平均意见得分(MOS)MOS值可能会因数据集和注释者而异,而在系统比较

预测视为回归问题,但标准回归损失忽略了感知判断的相关性。

译和模型选择等实际应用场景中,相对偏好通常更加一致

为了解决这一限制,我们引入了QAMRO,一个新颖的质量意

中识自适应边缘排序优化框架,该框架无缝集成了不同视角的回归且有意义。尽管在MOS预测中的探索较少,但有效排

1目标,旨在突出感知差异并优先准确评分。我们的框架利用预训名损失函数的开发最近已在多个应用领域[24]–[41]获

v

7练的音频文本模型如CLAP和Audiobox-Aesthetics,并仅得关注,因为它们能够更好地捕捉主观回归任务中的相

5在官方AudioMOSChallenge2025数据集上进行训练。它对排名。然而,标准排名损失函数通常采用固定边距并

9展示了在所有维度上与人类评估的高度一致性,显著优于稳健的统一处理所有样本对,忽略了感知差异和高质量内容的

8

0.基础模型。不同重要性。

8IndexTerms—音频质量评估,平均意见得分,排名损失,

0质量感知加权,自适应边界。鉴于这些限制,我们提出了一种新的建模框架,以

5引入基于排名的视角到MOS预测任务中。具体来说,我

2

:I.介绍们提出了一个Q质量感知A自适应M间隔R排名O

v

i优化(QAMRO)策略,通过鼓励正确的成对排名来增

x音频生成系统,包括文本到音乐(TTM)[1],[2]、文

r强MOS预测模型的训练。与传统的排名损失[42]–[44]

a本到语音(TTS)[3]–[5]和文本到音频(TTA)[6],[7],

在扩散模型和大型语言模型[8]–[15]等突破的推动下取不同,QAMRO根据感知分数差距调整间隔,并给予高

得了快速进展。这些系统可以从文本生成富有表现力质量样本更多权重。我们在官方AudioMOS挑战2025

的音频,支持音乐制作、内容创作和互动媒体等领域应数据集上严格进行了实验(即在封闭设置下),结果显

用。一个关键挑战是评估生成音频的感知质量。虽然主示结合排名意识监督可以改善与人类判断的一致性,同

观平均意见得分(MOS)可以提供可靠的评估,但它们时保持准确的绝对分数预测。这证明了我们策略在感知

昂贵、不可扩展且难以复制。相比之下,如Fréchet音回归中的有效性,从而为未来音频评估研究指出了一个

频距离(FAD)[16]和Inception分数(IS)[17]等客观有前景的方向。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档