跨模态知识蒸馏在语音大型语言模型中的应用.pdfVIP

  • 0
  • 0
  • 约2.17万字
  • 约 7页
  • 2026-02-27 发布于北京
  • 举报

跨模态知识蒸馏在语音大型语言模型中的应用.pdf

跨模态知识蒸馏在语音大型语言模型中的应用

1,2121

EnzhiWang,QichengLi*,ZhiyuanTang,YuhangJia

TMCC,CollegeofComputerScience,NankaiUniversity,Tianjin,China

TencentEtherealAudioLab,TencentCorporation,Shenzhen,China

ABSTRACT自语音输入的响应与文本输入的响应存在明显差异的

研究之一,这表明纯语音交互的性能落后于文本模式。

在这项工作中,我们首次系统地评估了语音大型语言

我们从持续学习的角度来解决这个问题,并认为这类

模型中的灾难性遗忘和模态不等价问题,结果显示引

模型遭受了灾难性遗忘[7]。当通过持续学习将大语

本入语音能力即使输入仍为文本形式也会损害知识和推

言模型适应到语音任务时,模型倾向于过度关注与语

译理,并且性能会随着口语查询进一步下降。为了解决

音相关的任务而忘记之前获得的语言知识。这严重削

中这些挑战,我们提出了一种跨模态知识蒸馏框架,该

弱了将基于文本的大语言模型扩展到语音模式的应用

1框架利用文本到文本和语音到文本两种通道将基于文

v潜力。

0本的教师模型的知识转移到语音LLM中。在对话和

为了缓解灾难性遗忘,许多研究采用了“冻结主

3音频理解任务上的广泛实验验证了我们的方法在保留

9干,适配器训练”的策略。例如,Freeze-Omni[8]提出

4文本知识、改善跨模态对齐以及增强语音交互推理方

1.面的有效性。在引入语音输入时完全冻结预训练的文本大模型,仅

9训练语音编码器和适配器层,从而保留了语音模式下

0IndexTerms—语音LLMs,跨模态知识蒸馏,灾

5的“智能”水平。类似地,Seed-ASR[9]和FireRedASR-

2难性遗忘,模态不等价,问题回答LLM[10]采用Encoder-Adapter-LLM架构进行端到端

:

v的自动语音识别,同时固定大模型而学习适配器层以

i

x1.介绍整合语音和文本能力。尽管这些方法在一定程度上保

r

a留了文本模型的能力,但推理能力在语音模式下仍倾

近年来,大型语言模型(LLMs)在多模态能力方

向于下降。

面取得了显著进步,语音交互已成为一个关键的应用

因此,我们将这种性能下降归因于两个主要因素:

方向。诸如GPT-4o

文档评论(0)

1亿VIP精品文档

相关文档