- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
使用大型语言模型反馈定制语音识别模型
ShaoshiLingGuoliYe
MicrosoftCoreAIMicrosoftCoreAI
Redmond,WA,USARedmond,WA,USA
shaoshiling@guoye@
摘要—自动语音识别(ASR)系统在一般的转录任务中表相比之下,基于互联网规模语料库训练的文本大型
现出色。然而,它们仍然难以识别罕见的命名实体并适应领域语言模型(LLMs)如GPT4[5],Deepseek[6],Phi[7]
差异。相比之下,在大规模互联网数据集上训练的大语言模型在广泛领域中表现出显著的泛化能力。这些模型在涉及
(LLMs)通常在广泛的领域内更为有效。在这项工作中,我们提
常识推理、上下文学习甚至零样本适应的任务上展示了
出了一种基于强化学习的无监督领域自适应方法,通过利用未标
本记的数据并通过大语言模型的反馈来提升转录质量——特别是强大的性能。这样的能力表明,LLMs可以作为有价值
译受领域差异影响的命名实体。给定上下文信息,我们的框架采用资源来提升ASR模型的表现,特别是在低资源或领域
中一个LLM作为奖励模型,对ASR模型生成的假设进行评分。不匹配的情况下。最近的研究探索了通过诸如重排序
2这些分数充当强化学习中调整ASR模型的奖励信号。我们的方假设[8]–[11]或后处理中的错误修正[12]–[14]等方法将
v法在实体词错误率上比传统的自训练方法提高了21%。LLMs与ASR系统集成。
1
9IndexTerms—无监督领域适应,上下文定制,大型语言受来自AI反馈[15],[16]的强化学习(RL)启发,
0模型,自动语音识别,强化学习
1我们提出了一种使用在线LLM反馈进行无监督领域适
1
.I.介绍应的ASR系统。我们的方法不依赖于为ASR任务专门
6
0自动语音识别(ASR)系统近年来取得了显著进训练的奖励模型,而是直接从LLM中提取评估分数来
5绕过这一需求。具体来说,给定目标领域的口语假设以
2展,这得益于神经网络架构的进步和越来越多的标注数
:及上下文信息(例如,领域元数据、目标命名实体或先
v据的可用性[1]。然而,当目标领域或测试条件与训练
i前对话的描述),我们使用LLM通过计算LLMs中的对
x期间所见的不同时,ASR系统的性能往往会大幅下降。
r数概率得分之和来评估这些假设的质量。然后将这些分
a这种训练和测试条件之间的领域不匹配在实际应用中
很常见,并且是一个主要挑战。一种直接的方法是从目数用于生成奖励信号,指导使用诸如DPO[16],[17]和
标域收集标注数据并使用它来适应预训练的源模型。然GRPO[18]等最先进的RL算法进行ASR模型的微调。
与传统的自我训练技术不同,我们的方法不需要置信度
而,为每个新领域手动标注大量数据既耗时又昂贵。这
得分。相反,它利用LLM对语言和上下文的隐式理解
突显了需要能够利用未标记数据实现有效的源到目标
来生成可靠的奖励,从而促进目标领域中更准确且更具
您可能关注的文档
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
原创力文档


文档评论(0)