QAMRO：质量感知自适应边际排序优化用于与人类对齐的音频生成系统评估.pdfVIP

QAMRO：质量感知自适应边际排序优化用于与人类对齐的音频生成系统评估.pdf

QAMRO：质量感知自适应边际排序优化用于

与人类对齐的音频生成系统评估

Chien-ChunWang,Kuan-TangHuang,Cheng-YehYang,Hung-ShinLee,Hsin-MinWang,andBerlinChen

Dept.ComputerScienceandInformationEngineering,NationalTaiwanNormalUniversity,Taiwan

InstituteofComputerScience,AcademiaSinica,Taiwan

UnitedLinkCo.,Ltd.,Taiwan

摘要—评估音频生成系统，包括文本到音乐（TTM）、文本模型的预测误差。然而，这些方法没有考虑样本之间的

到语音（TTS）和文本到音频（TTA），由于人类感知的主观性相对排名，这是感知评估的一个关键组成部分。绝对

本和多维性而仍然具有挑战性。现有方法将平均意见得分（MOS）MOS值可能会因数据集和注释者而异，而在系统比较

预测视为回归问题，但标准回归损失忽略了感知判断的相关性。

译和模型选择等实际应用场景中，相对偏好通常更加一致

为了解决这一限制，我们引入了QAMRO，一个新颖的质量意

中识自适应边缘排序优化框架，该框架无缝集成了不同视角的回归且有意义。尽管在MOS预测中的探索较少，但有效排

1目标，旨在突出感知差异并优先准确评分。我们的框架利用预训名损失函数的开发最近已在多个应用领域[24]–[41]获

7练的音频文本模型如CLAP和Audiobox-Aesthetics，并仅得关注，因为它们能够更好地捕捉主观回归任务中的相

5在官方AudioMOSChallenge2025数据集上进行训练。它对排名。然而，标准排名损失函数通常采用固定边距并

9展示了在所有维度上与人类评估的高度一致性，显著优于稳健的统一处理所有样本对，忽略了感知差异和高质量内容的

0.基础模型。不同重要性。

8IndexTerms—音频质量评估，平均意见得分，排名损失，

0质量感知加权，自适应边界。鉴于这些限制，我们提出了一种新的建模框架，以

5引入基于排名的视角到MOS预测任务中。具体来说，我

:I.介绍们提出了一个Q质量感知A自适应M间隔R排名O

i优化（QAMRO）策略，通过鼓励正确的成对排名来增

x音频生成系统，包括文本到音乐（TTM）[1],[2]、文

r强MOS预测模型的训练。与传统的排名损失[42]–[44]

a本到语音（TTS）[3]–[5]和文本到音频（TTA）[6],[7]，

在扩散模型和大型语言模型[8]–[15]等突破的推动下取不同，QAMRO根据感知分数差距调整间隔，并给予高

得了快速进展。这些系统可以从文本生成富有表现力质量样本更多权重。我们在官方AudioMOS挑战2025

的音频，支持音乐制作、内容创作和互动媒体等领域应数据集上严格进行了实验（即在封闭设置下），结果显

用。一个关键挑战是评估生成音频的感知质量。虽然主示结合排名意识监督可以改善与人类判断的一致性，同

观平均意见得分（MOS）可以提供可靠的评估，但它们时保持准确的绝对分数预测。这证明了我们策略在感知

昂贵、不可扩展且难以复制。相比之下，如Fréchet音回归中的有效性，从而为未来音频评估研究指出了一个

频距离（FAD）[16]和Inception分数（IS）[17]等客观有前景的方向。

更多 >