从炒作到洞察：重新思考大型语言模型在视觉语音识别中的集成.pdfVIP

从炒作到洞察：重新思考大型语言模型在视觉语音识别中的集成.pdf

从炒作到洞察：重新思考大型语言模型在视觉语音识别中的集成

RishabhJain,NaomiHarte

SigmediaGroup,SchoolofEngineering

TrinityCollegeDublin,Ireland

{rijain,nharte}@tcd.ie

ABSTRACT唇部运动与相应音频信号之间的联合表示。在此基础

自我监督编码器的进步提高了视觉语音识别（VSR）上，研究人员开发了包括RAVEn[4]和BRAVEn[5]

本的性能。最近将这些编码器与大型语言模型解码器集在内的变体，探索了不同的自我监督学习范式和架构

译成的方法改进了转录准确性；然而，尚不清楚这些改修改。这些方法表明，大量的未标记预训练可以建立

中进是源自视觉理解还是更强大的语言建模能力。在本强大的性能基线，为后续以解码器为中心的改进奠定

1研究中，我们系统地评估了解码器，通过冻结或选择了基础。半监督方法通过模型如Auto-AVSR[6]获得

v性更新视觉编码器、扩展解码器规模、比较适应策略了显著的地位，该模型展示了从预先训练好的ASR模

8和架构以及跨LRS2、LRS3及其组合的数据集变化型中生成伪标签可以在数千小时的未标记数据上实现

8来进行训练。在LRS2、LRS3和WildVSR上的评估有竞争力的表现。这种方法突显了超越传统监督学习

1显示，扩展和适应带来了有限的改进，而合并数据集范式的数据扩展策略的潜在价值。

9增强了泛化能力。语义分析表明，这些增益主要源自最近的研究越来越多地关注将预训练的视觉编码

5词汇处理而非语义处理。我们基于结合数据集训练的器与大型语言模型（LLMs）解码器[7,8]集成，以利用

2Llama-2-13B模型在LRS3上实现了24.7%的WER，LLM的语言知识解决纯粹的视觉处理无法解决的歧

v在WildVSR上实现47.0%，确立了无额外监督训练模义问题[9]。框架如VSP-LLM[10]和Llama-AVSR[11]

r型中的最先进水平。我们的研究结果表明，大型语言反映了这一趋势，通过轻量级投影层和参数高效的微

模型解码器改进了上下文推理而非视觉特征提取，强调（PeFT）方法，例如低秩自适应（LoRA）[12]或量化

调了需要更强的视觉编码器来推动有意义的进步。LoRA（Q-LoRA）[13]，将预训练的视觉编码器与冻结

的LLM连接起来。这些方法旨在将视觉语音信息传

IndexTerms—视觉语音识别，大型语言模型，

递给LLM，同时受益于其现有的语言上下文。尽管单

AV-HuBERT，LRS数据集，Llama

词错误率（WER）的改进一直被报道，但在LRS3[14]

上训练的模型表现出性能紧密聚集的现象（表1）。这

1.介绍

表明观察到的收益可能主要由更强的语言建模驱动，

视觉语音识别（VSR），或唇读，与音频-视频语音而不是更有效地利用视觉模式来提取口唇运动特征。

识别（AVSR）密切相关，这两项任务采用了类似的底尚不清楚通过投影层将视觉特征映射到LLM是否会

层架构，仅输入模态不同。这些架构从早期的CNN-产生新的视觉表示。

RNN模型[1]发展到目前基于序列到序列（S2S）变换本文探讨了改进是源自编码器中的新视觉特征

更多 >