连接 ASR 和 LLMs 以识别构音障碍语音:自我监督和生成方法的基准测试.pdfVIP

  • 4
  • 0
  • 约3.05万字
  • 约 7页
  • 2025-10-13 发布于北京
  • 举报

连接 ASR 和 LLMs 以识别构音障碍语音:自我监督和生成方法的基准测试.pdf

连接ASR和LLMs以识别构音障碍语音:自我监督和生成方法的基准

测试

AhmedAboeitta,AhmedSharshar,YoussefNafea,ShadyShehata

NLPDepartment,MBZUAI,UAE

InvertibleAI,UAE

{ahmed.aboeitta,ahmed.sharshar,youssef.nafea,shady.shehata}@mbzuai.ac.ae

Abstract通过微调或领域适应来改进声学编码器,但解码

策略仍然研究不足[8]。虽然自监督的ASR模型,

构音障碍的言语对于自动语音识别(ASR)提出

如HuBERT、Wav2Vec和Whisper已经被用于测

了显著挑战,由于音素扭曲和高度变异性。虽然

试构音障碍语音,但在中度至重度情况下它们仍

像Wav2Vec、HuBERT和Whisper这样的自监督

表现出较高的WER[9,10,11,12]。尽管先前的工

ASR模型显示出潜力,但它们在构音障碍言语中

作集中在改进特征表示上,但解码策略在提高转

的有效性仍不清楚。本研究系统地对这些具有不

本录质量方面的作用仍然研究不足。

同解码策略的模型进行了基准测试,包括CTC、

译现有的构音障碍ASR方法采用连接时序分类

seq2seq以及基于LLM的增强解码(BART、GPT-

中(CTC)解码或端到端的语音转文本模型,这两种

2、Vicuna)。我们的贡献包括(1)为构音障碍言

1方法都有显著的局限性[13]。基于CTC的模型,

v语提供ASR架构的基准测试,(2)引入基于LLM

7的解码以提高可理解性,(3)分析跨数据集的泛化如Wav2Vec-CTC和HuBERT-CTC,假设音素相

2互独立,这使得它们在构音障碍导致音素失真时

0能力,以及(4)提供对不同严重程度识别错误的

8容易出现对齐错误[14,15]。Whisper的大规模预

0.见解。研究结果表明,基于LLM的增强解码通过训练增强了鲁棒性,但缺乏语言约束,即使正确识

8利用语言约束来恢复音素和纠正语法,改善了构

0音障碍ASR。别了音素,也可能产生语法或语义不连贯的转录

5结果[16]。

2IndexTerms:构音障碍,构音障碍言语识别

:几种混合的自动语音识别方法尝试使用统计

v

i

文档评论(0)

1亿VIP精品文档

相关文档