跨模态知识蒸馏在语音大型语言模型中的应用.pdfVIP

下载本文档

0
0
约2.17万字
约 7页
2026-02-27 发布于北京
举报

跨模态知识蒸馏在语音大型语言模型中的应用.pdf

跨模态知识蒸馏在语音大型语言模型中的应用

1,2121

EnzhiWang,QichengLi*,ZhiyuanTang,YuhangJia

TMCC,CollegeofComputerScience,NankaiUniversity,Tianjin,China

TencentEtherealAudioLab,TencentCorporation,Shenzhen,China

ABSTRACT自语音输入的响应与文本输入的响应存在明显差异的

研究之一，这表明纯语音交互的性能落后于文本模式。

在这项工作中，我们首次系统地评估了语音大型语言

我们从持续学习的角度来解决这个问题，并认为这类

模型中的灾难性遗忘和模态不等价问题，结果显示引

模型遭受了灾难性遗忘[7]。当通过持续学习将大语

本入语音能力即使输入仍为文本形式也会损害知识和推

言模型适应到语音任务时，模型倾向于过度关注与语

译理，并且性能会随着口语查询进一步下降。为了解决

音相关的任务而忘记之前获得的语言知识。这严重削

中这些挑战，我们提出了一种跨模态知识蒸馏框架，该

弱了将基于文本的大语言模型扩展到语音模式的应用

1框架利用文本到文本和语音到文本两种通道将基于文

v潜力。

0本的教师模型的知识转移到语音LLM中。在对话和

为了缓解灾难性遗忘，许多研究采用了“冻结主

3音频理解任务上的广泛实验验证了我们的方法在保留

9干，适配器训练”的策略。例如，Freeze-Omni[8]提出

4文本知识、改善跨模态对齐以及增强语音交互推理方

1.面的有效性。在引入语音输入时完全冻结预训练的文本大模型，仅

9训练语音编码器和适配器层，从而保留了语音模式下

0IndexTerms—语音LLMs，跨模态知识蒸馏，灾

5的“智能”水平。类似地，Seed-ASR[9]和FireRedASR-

2难性遗忘，模态不等价，问题回答LLM[10]采用Encoder-Adapter-LLM架构进行端到端

v的自动语音识别，同时固定大模型而学习适配器层以

x1.介绍整合语音和文本能力。尽管这些方法在一定程度上保

a留了文本模型的能力，但推理能力在语音模式下仍倾

近年来，大型语言模型（LLMs）在多模态能力方

向于下降。

面取得了显著进步，语音交互已成为一个关键的应用

因此，我们将这种性能下降归因于两个主要因素：

方向。诸如GPT-4o

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

跨模态知识蒸馏在语音大型语言模型中的应用.pdfVIP