TurboBias:通用 ASR 上下文偏置由 GPU 加速的短语增强树支持的.pdfVIP

  • 1
  • 0
  • 约3.1万字
  • 约 9页
  • 2025-10-16 发布于北京
  • 举报

TurboBias:通用 ASR 上下文偏置由 GPU 加速的短语增强树支持的.pdf

TurboBias:通用ASR上下文偏置由GPU加

速的短语增强树支持的

AndreiAndrusenkoVladimirBataevLilitGrigoryanVitalyLavrukhinBorisGinsburg

NVIDIANVIDIANVIDIANVIDIANVIDIA

Yerevan,ArmeniaYerevan,ArmeniaYerevan,ArmeniaSantaClara,USASantaClara,USA

aandrusenko@vbataev@lgrigoryan@vlavrukhin@

摘要—识别特定的关键短语是上下文自动语音识别(ASR)上下文偏置方法可以提高关键词识别的准确性,但

中的一个基本任务。然而,大多数现有的上下文偏向方法都存在这一过程会增加额外的限制。例如,深度融合方法意味

本需要额外模型训练、显著减慢解码过程或限制ASR系统类型选着将上下文信息引入ASR模型。这个过程需要重新训

择的局限性。本文提出了一种支持所有主要类型的通用ASR上

译练ASR模型(交叉注意力方法)[5],[6]或训练一个额

下文偏向框架:CTC、转导器和注意编码器-解码器模型。该框

中架基于一个GPU加速的词提升树,使其能够在浅层融合模式下外的上下文模块[7]–[9]。SpeechLM模型也支持以额外

1用于贪婪搜索和束搜索解码,即使有大量关键短语(多达20K提示的形式引入上下文信息[10],[11],但这同样要求在

v

4项)也不会出现显著的速度下降。获得的结果表明所提出方法具模型训练过程中使用上下文学习。

1有高效率,在准确性和解码速度上超过了考虑的开源上下文偏向浅层融合方法允许避免额外的模型训练[12],[13].

0方法。我们的上下文偏向框架作为NeMo工具包的一部分公开

7在这种情况下,在解码阶段应用了上下文偏置,增加了

0提供。

.从集成到辅助增强树或图中的上下文列表中识别关键

8IndexTerms—自动语音识别,上下文偏置,短语提升,贪

0婪解码短语的概率。在[14]中表明,浅层融合在关键词识别

5的准确性上仅略逊于深层融合,同时保持了使用的灵

2

:活性。

vI.介绍

i

x浅层融合方法的缺点是解码过程显著变慢,必须以

r

a现代端到端自动语音识别(ASR)系统,如连接时束搜索模式进行以扩展假设搜索空间。这个问题在解码

序分类(CTC)[1],循环神经转导器(RNN-T)[2],和RNN-T和AED模型时尤为突出,因为在束搜索过程中

注意力编码解码器(AED)[3],在常见数据领域中已经调用解码器模块的次数相比于贪婪模式有显著增加。解

实现了相对较高的语音识别准确性[4]。然而,这些模决这一问题对于RNN-T尤为重要,因为该模型通常作

型通常在识别训练数据集中罕见或缺失的特定单词/短为准确率性能、内部语言模型(LM)能力和流式支持

语(如联系人名称、产品标题、技术术语等)时存在问之间的权衡选择[15],[16]。

题。上下文偏差方法被用来解决这个问题。为了加快上下文偏置过程,可以使用基于CTC的

上下文偏置方法的关键点是使用特定目标领域的词定位器[17],结合来自CTC或RNN-T模型的贪婪

额外数据。这可以是一个由句子组成的文本语料库,或解码结果与检测到的关键字。然而,这种方法需要一个

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档