- 0
- 0
- 约2.28万字
- 约 5页
- 2026-03-06 发布于北京
- 举报
QAMRO:质量感知自适应边际排序优化用于
与人类对齐的音频生成系统评估
Chien-ChunWang,Kuan-TangHuang,Cheng-YehYang,Hung-ShinLee,Hsin-MinWang,andBerlinChen
Dept.ComputerScienceandInformationEngineering,NationalTaiwanNormalUniversity,Taiwan
InstituteofComputerScience,AcademiaSinica,Taiwan
UnitedLinkCo.,Ltd.,Taiwan
摘要—评估音频生成系统,包括文本到音乐(TTM)、文本模型的预测误差。然而,这些方法没有考虑样本之间的
到语音(TTS)和文本到音频(TTA),由于人类感知的主观性相对排名,这是感知评估的一个关键组成部分。绝对
本和多维性而仍然具有挑战性。现有方法将平均意见得分(MOS)MOS值可能会因数据集和注释者而异,而在系统比较
预测视为回归问题,但标准回归损失忽略了感知判断的相关性。
译和模型选择等实际应用场景中,相对偏好通常更加一致
为了解决这一限制,我们引入了QAMRO,一个新颖的质量意
中识自适应边缘排序优化框架,该框架无缝集成了不同视角的回归且有意义。尽管在MOS预测中的探索较少,但有效排
1目标,旨在突出感知差异并优先准确评分。我们的框架利用预训名损失函数的开发最近已在多个应用领域[24]–[41]获
v
7练的音频文本模型如CLAP和Audiobox-Aesthetics,并仅得关注,因为它们能够更好地捕捉主观回归任务中的相
5在官方AudioMOSChallenge2025数据集上进行训练。它对排名。然而,标准排名损失函数通常采用固定边距并
9展示了在所有维度上与人类评估的高度一致性,显著优于稳健的统一处理所有样本对,忽略了感知差异和高质量内容的
8
0.基础模型。不同重要性。
8IndexTerms—音频质量评估,平均意见得分,排名损失,
0质量感知加权,自适应边界。鉴于这些限制,我们提出了一种新的建模框架,以
5引入基于排名的视角到MOS预测任务中。具体来说,我
2
:I.介绍们提出了一个Q质量感知A自适应M间隔R排名O
v
i优化(QAMRO)策略,通过鼓励正确的成对排名来增
x音频生成系统,包括文本到音乐(TTM)[1],[2]、文
r强MOS预测模型的训练。与传统的排名损失[42]–[44]
a本到语音(TTS)[3]–[5]和文本到音频(TTA)[6],[7],
在扩散模型和大型语言模型[8]–[15]等突破的推动下取不同,QAMRO根据感知分数差距调整间隔,并给予高
得了快速进展。这些系统可以从文本生成富有表现力质量样本更多权重。我们在官方AudioMOS挑战2025
的音频,支持音乐制作、内容创作和互动媒体等领域应数据集上严格进行了实验(即在封闭设置下),结果显
用。一个关键挑战是评估生成音频的感知质量。虽然主示结合排名意识监督可以改善与人类判断的一致性,同
观平均意见得分(MOS)可以提供可靠的评估,但它们时保持准确的绝对分数预测。这证明了我们策略在感知
昂贵、不可扩展且难以复制。相比之下,如Fréchet音回归中的有效性,从而为未来音频评估研究指出了一个
频距离(FAD)[16]和Inception分数(IS)[17]等客观有前景的方向。
您可能关注的文档
- 空间轨迹:通过空间-时间理解增强 VLA 模型.pdf
- 构想生成式人工智能在制图和地图制作中的应用.pdf
- 对预请求乘客等待时间在拼车系统中可预测性和可解释性的初步观察.pdf
- 具有过时信道状态信息的下行链路 SDMA 网络的改进 SINR 近似值.pdf
- 偏见缓解的激活导向:一种更安全 LLMs 的可解释方法.pdf
- LyS 在 SemEval 2025 任务 8 中:面向表格问答的零样本代码生成.pdf
- 缓解大型语言模型中反事实解释的流行偏差.pdf
- 针对电力电网的负载改变攻击:使用 GB-36 母线系统公开数据集的一个案例研究.pdf
- UNISTFORMER: 统一的时空轻量级变换器用于高效的基于骨架的动作识别.pdf
- 安全语义,不安全解释:解决大型视觉-语言模型中的隐式推理安全性问题.pdf
- (正式版)DB51∕T 1867-2014 《袋栽黑木耳生产技术规程》.docx
- (正式版)DB51∕T 2413-2023 《油橄榄密植丰产栽培技术规程》.docx
- (正式版)DB51∕T 2436-2017 《川菜东坡一品肉烹饪工艺技术规范》.docx
- (正式版)DB51∕T 2396-2017 《农村电子商务服务站(点)服务与管理规范》.docx
- (正式版)DB51∕T 2419-2017 《桢楠扦插育苗技术规程》.docx
- CN105145773B 一种无花果曲奇饼干及其制作方法 (江苏农林职业技术学院).docx
- CN105203825A 微测量电极的制作方法和热电势的测量方法及相关装置 (国家纳米科学中心).docx
- CN105137533B 一种啁啾光纤光栅及其制作方法 (南京航空航天大学).docx
- (正式版)DB51∕T 2453-2018 《巴山新居公共管理指南》.docx
- (正式版)DB51∕T 1892-2014 《川西北地区沙化土地治理技术规程》.docx
最近下载
- 安全类课件-安全生产管理基本理论.doc VIP
- EP05-A3 型定量测量程序精度的评定.已批准的指南第二版.pdf VIP
- 翻译美学基本理论构想-刘宓庆.pdf VIP
- 2025年江西机电职业技术学院单招职业技能测试题库附参考答案(典型题).docx
- 基于PLC的中央空调控制系统设计【毕业论文】.docx VIP
- 高中数学大单元教学设计优秀案例.docx VIP
- 改性无水磷石膏增强高密度聚乙烯(HDPE-PG)六棱结构壁管材.pdf
- 苏教版三年级下册100道口算题大全(全册各类完整).pdf VIP
- 专题13(大题汇编)选择性必修二 经济与社会生活(新高考通用)(解析版)-2025年高考历史三模试题分类汇编 .pdf VIP
- 2022年-2024年青岛卫健委事业编临床笔试真题.docx VIP
原创力文档

文档评论(0)