连接 ASR 和 LLMs 以识别构音障碍语音：自我监督和生成方法的基准测试.pdfVIP

下载本文档

4
0
约3.05万字
约 7页
2025-10-13 发布于北京
举报

连接 ASR 和 LLMs 以识别构音障碍语音：自我监督和生成方法的基准测试.pdf

连接ASR和LLMs以识别构音障碍语音：自我监督和生成方法的基准

测试

AhmedAboeitta,AhmedSharshar,YoussefNafea,ShadyShehata

NLPDepartment,MBZUAI,UAE

InvertibleAI,UAE

{ahmed.aboeitta,ahmed.sharshar,youssef.nafea,shady.shehata}@mbzuai.ac.ae

Abstract通过微调或领域适应来改进声学编码器，但解码

策略仍然研究不足[8]。虽然自监督的ASR模型，

构音障碍的言语对于自动语音识别（ASR）提出

如HuBERT、Wav2Vec和Whisper已经被用于测

了显著挑战，由于音素扭曲和高度变异性。虽然

试构音障碍语音，但在中度至重度情况下它们仍

像Wav2Vec、HuBERT和Whisper这样的自监督

表现出较高的WER[9,10,11,12]。尽管先前的工

ASR模型显示出潜力，但它们在构音障碍言语中

作集中在改进特征表示上，但解码策略在提高转

的有效性仍不清楚。本研究系统地对这些具有不

本录质量方面的作用仍然研究不足。

同解码策略的模型进行了基准测试，包括CTC、

译现有的构音障碍ASR方法采用连接时序分类

seq2seq以及基于LLM的增强解码（BART、GPT-

中（CTC）解码或端到端的语音转文本模型，这两种

2、Vicuna）。我们的贡献包括（1）为构音障碍言

1方法都有显著的局限性[13]。基于CTC的模型，

v语提供ASR架构的基准测试，（2）引入基于LLM

7的解码以提高可理解性，（3）分析跨数据集的泛化如Wav2Vec-CTC和HuBERT-CTC，假设音素相

2互独立，这使得它们在构音障碍导致音素失真时

0能力，以及（4）提供对不同严重程度识别错误的

8容易出现对齐错误[14,15]。Whisper的大规模预

0.见解。研究结果表明，基于LLM的增强解码通过训练增强了鲁棒性，但缺乏语言约束，即使正确识

8利用语言约束来恢复音素和纠正语法，改善了构

0音障碍ASR。别了音素，也可能产生语法或语义不连贯的转录

5结果[16]。

2IndexTerms:构音障碍，构音障碍言语识别

:几种混合的自动语音识别方法尝试使用统计

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

连接 ASR 和 LLMs 以识别构音障碍语音：自我监督和生成方法的基准测试.pdfVIP