- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大型语言模型为基础的ASR的高效缩放
BingshenMu,YiwenShao,KunWei,DongYu,LeiXie
TencentAILab
摘要—大型语言模型(LLM)为基础的自动语音识别优化多个模块,导致计算预算大幅增加。此外,LLM-ASR
(ASR)实现了强大的性能,但通常会带来高昂的计算成本。本通常利用现有预训练的ASR模型(如Whisper[27])中
研究探讨了如何高效地获得最佳的LLM-ASR性能。通过全面的编码器,并在整个训练过程中保持其不变。在这项工作
且受控的实验,我们发现,在将语音编码器与LLM集成之前对
中,我们提供了一个关键见解:在将语音编码器与大语言
其进行预训练,比标准的联合后训练实践具有显著更好的扩展效
率。基于这一洞察,我们提出了一种新的多阶段LLM-ASR训模型集成之前对其进行预训练,比标准的联合后训练方法
练策略,即EFIN:编码器优先集成。在所有评估的训练策略中,(LLM-ASR)具有显著更好的扩展效率。具体来说,由于
EFIN持续提供更好的性能(相对于21.1%CERR),并且计ASR模型的参数远少于LLM-ASR,独立地以高识别精度
算预算显著降低(49.9%FLOPs)。此外,我们推导出一个逼近训练一个ASR模型更具成本效益。此外,该ASR模型的
本ASR错误率作为计算函数的扩展定律,为LLM-ASR扩展提编码器具有更好的语音特征提取能力,这显著有助于提升
译供了实用指南。LLM-ASR的识别性能。因此,在给定预训练的语音编码
IndexTerms—语音编码器,LLM-ASR,高效训练,缩
中放定律。器和作为主干的大语言模型以及用于后训练的新领域数据
1的情况下,我们引入了一种针对LLM-ASR的三阶段训练
v
6I.介绍策略,命名为EFIN:EncoderFirst输入ntegration。
9阶段1:我们独立地使用其原始架构和目标微调语音
0自2010年代神经网络(NNs)和深度学习兴起以来,自
4动语音识别(ASR)已从依赖仅基于NN的声学模型的混合编码器。
0
.阶段2:我们冻结了微调的编码器和预训练的语言模
8框架[1]–[3]转变为端到端(E2E)框架[4]–[8],其中整个
型,并仅训练投影层以初步收敛。
0NN模型被训练以直接输出转录文本。尽管在根据词错误
5阶段3:我们解冻投影层和大语言模型,并联合训练
2率(WER)或字符错误率(CER)衡量的语音识别准确性方
:它们直至最终收敛。为了进一步降低资源需求,我们
v面取得了显著进步,但仍存在大量错误[9]–[11]。具体来说,
i当前E2EASR框架难以有效地利用丰富的常识知识并在在这一阶段对大语言模型应用低秩适应(LoRA)[28]。
x
r语音识别过程中进行上下文推理,这使得它们不可避免地此外,我们研究了所提出的训练策略EFIN的缩放特
a
依赖于与外部语言模型(LMs)相结合的复杂融合策略。随性,以准确预测固定计算预算下LLM-ASR的语音识别性
着大
您可能关注的文档
- 迈向透明的人工智能评分:语义熵作为人机分歧的信号.pdf
- NEARL-CLIP: 带正则化的交互式查询适配在医学视觉语言理解中的应用.pdf
- 用于三维界面多相流重构的卷积自编码器.pdf
- 提升大型语言模型(LLM)能力的有效策略.pdf
- GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求.pdf
- 中国国家标准 GB/T 19436.1-2025机械电气安全 电敏保护设备 第1部分:一般要求和试验.pdf
- 《GB/T 19436.1-2025机械电气安全 电敏保护设备 第1部分:一般要求和试验》.pdf
- GB/T 19436.1-2025机械电气安全 电敏保护设备 第1部分:一般要求和试验.pdf
- GB/T 20068-2025船载自动识别系统(AIS)技术要求.pdf
- 中国国家标准 GB/T 20068-2025船载自动识别系统(AIS)技术要求.pdf
- 中国国家标准 GB 14287.5-2025电气火灾监控系统 第5部分:测量热解粒子式电气火灾监控探测器.pdf
- 《GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存》.pdf
- GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求.pdf
- 《GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求》.pdf
- 《GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备》.pdf
- GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备.pdf
- GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
- 中国国家标准 GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
原创力文档


文档评论(0)