- 0
- 0
- 约2.17万字
- 约 7页
- 2026-02-27 发布于北京
- 举报
跨模态知识蒸馏在语音大型语言模型中的应用
1,2121
EnzhiWang,QichengLi*,ZhiyuanTang,YuhangJia
TMCC,CollegeofComputerScience,NankaiUniversity,Tianjin,China
TencentEtherealAudioLab,TencentCorporation,Shenzhen,China
ABSTRACT自语音输入的响应与文本输入的响应存在明显差异的
研究之一,这表明纯语音交互的性能落后于文本模式。
在这项工作中,我们首次系统地评估了语音大型语言
我们从持续学习的角度来解决这个问题,并认为这类
模型中的灾难性遗忘和模态不等价问题,结果显示引
模型遭受了灾难性遗忘[7]。当通过持续学习将大语
本入语音能力即使输入仍为文本形式也会损害知识和推
言模型适应到语音任务时,模型倾向于过度关注与语
译理,并且性能会随着口语查询进一步下降。为了解决
音相关的任务而忘记之前获得的语言知识。这严重削
中这些挑战,我们提出了一种跨模态知识蒸馏框架,该
弱了将基于文本的大语言模型扩展到语音模式的应用
1框架利用文本到文本和语音到文本两种通道将基于文
v潜力。
0本的教师模型的知识转移到语音LLM中。在对话和
为了缓解灾难性遗忘,许多研究采用了“冻结主
3音频理解任务上的广泛实验验证了我们的方法在保留
9干,适配器训练”的策略。例如,Freeze-Omni[8]提出
4文本知识、改善跨模态对齐以及增强语音交互推理方
1.面的有效性。在引入语音输入时完全冻结预训练的文本大模型,仅
9训练语音编码器和适配器层,从而保留了语音模式下
0IndexTerms—语音LLMs,跨模态知识蒸馏,灾
5的“智能”水平。类似地,Seed-ASR[9]和FireRedASR-
2难性遗忘,模态不等价,问题回答LLM[10]采用Encoder-Adapter-LLM架构进行端到端
:
v的自动语音识别,同时固定大模型而学习适配器层以
i
x1.介绍整合语音和文本能力。尽管这些方法在一定程度上保
r
a留了文本模型的能力,但推理能力在语音模式下仍倾
近年来,大型语言模型(LLMs)在多模态能力方
向于下降。
面取得了显著进步,语音交互已成为一个关键的应用
因此,我们将这种性能下降归因于两个主要因素:
方向。诸如GPT-4o
您可能关注的文档
- 显式与隐式传记:评估和调整基于 Wikidata 的文本中的 LLM 信息提取.pdf
- 变压器模型在社交机器人检测中的比较分析.pdf
- 计算机辅助设计驱动的飞行准备型喷气动力仿人机器人协同设计.pdf
- 通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题.pdf
- GenKOL: 模块化生成 AI 框架用于可扩展虚拟 KOL 生成.pdf
- 自解释强化学习在 移动网络资源分配中的应用.pdf
- 成本性能分析:基于 CPU 的无服务器和基于 GPU 的训练架构的比较研究.pdf
- 返回耳朵:感知驱动的高保真音乐重构.pdf
- 人工智能与市场新进入者游戏开发者.pdf
- 伪标签增强级联框架:LSVOS 2025 VOS 赛道第二次技术报告.pdf
- 时间异质图对比学习在多模态声事件分类中的应用.pdf
- 一种多对一访谈范式用于高效 MLLM 评估.pdf
- LLAMA-MIMI: 具有交织语义和声学标记的语音语言模型.pdf
- 从炒作到洞察:重新思考大型语言模型在视觉语音识别中的集成.pdf
最近下载
- 有害生物风险分析5有害生物风险分析流程.pptx VIP
- 2024年初级社工实务考试真题及答案.docx VIP
- 三、电子书下载阅讀.PDF VIP
- 2022年洛阳职业技术学院单招面试模拟试题及答案解析.docx VIP
- 建设工程招投标与合同管理 第2版 第6章 建设工程施工合同管理.ppt VIP
- 54.地质灾害治理工程质量检验评定标准(试行)-TCAGHP 054-2019.pdf VIP
- 中华商业文化 教案全套 专题1--9 商史---商礼.docx VIP
- 有害生物培训课件.pptx VIP
- 2025年湖北省中考生物、地理合卷试卷真题(含答案解析).pdf
- 标准化工地试验室布置图.pdf VIP
原创力文档

文档评论(0)