- 4
- 0
- 约3.05万字
- 约 7页
- 2025-10-13 发布于北京
- 举报
连接ASR和LLMs以识别构音障碍语音:自我监督和生成方法的基准
测试
AhmedAboeitta,AhmedSharshar,YoussefNafea,ShadyShehata
NLPDepartment,MBZUAI,UAE
InvertibleAI,UAE
{ahmed.aboeitta,ahmed.sharshar,youssef.nafea,shady.shehata}@mbzuai.ac.ae
Abstract通过微调或领域适应来改进声学编码器,但解码
策略仍然研究不足[8]。虽然自监督的ASR模型,
构音障碍的言语对于自动语音识别(ASR)提出
如HuBERT、Wav2Vec和Whisper已经被用于测
了显著挑战,由于音素扭曲和高度变异性。虽然
试构音障碍语音,但在中度至重度情况下它们仍
像Wav2Vec、HuBERT和Whisper这样的自监督
表现出较高的WER[9,10,11,12]。尽管先前的工
ASR模型显示出潜力,但它们在构音障碍言语中
作集中在改进特征表示上,但解码策略在提高转
的有效性仍不清楚。本研究系统地对这些具有不
本录质量方面的作用仍然研究不足。
同解码策略的模型进行了基准测试,包括CTC、
译现有的构音障碍ASR方法采用连接时序分类
seq2seq以及基于LLM的增强解码(BART、GPT-
中(CTC)解码或端到端的语音转文本模型,这两种
2、Vicuna)。我们的贡献包括(1)为构音障碍言
1方法都有显著的局限性[13]。基于CTC的模型,
v语提供ASR架构的基准测试,(2)引入基于LLM
7的解码以提高可理解性,(3)分析跨数据集的泛化如Wav2Vec-CTC和HuBERT-CTC,假设音素相
2互独立,这使得它们在构音障碍导致音素失真时
0能力,以及(4)提供对不同严重程度识别错误的
8容易出现对齐错误[14,15]。Whisper的大规模预
0.见解。研究结果表明,基于LLM的增强解码通过训练增强了鲁棒性,但缺乏语言约束,即使正确识
8利用语言约束来恢复音素和纠正语法,改善了构
0音障碍ASR。别了音素,也可能产生语法或语义不连贯的转录
5结果[16]。
2IndexTerms:构音障碍,构音障碍言语识别
:几种混合的自动语音识别方法尝试使用统计
v
i
原创力文档

文档评论(0)