- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
流式Sortformer:基于发言者缓存的在线发言者分离与到达时间排序
IvanMedennikov,TaejinPark,WeiqingWang,HeHuang,KunalDhawan,JinhanWang,
JagadeeshBalam,BorisGinsburg
NVIDIA,USA
{imedennikov,taejinp,weiqingw,heh,kdhawan,jinhanw,jbalam,bginsburg}@
Abstract
本文提出了Sortformer说话人分割框架的流式扩
展,其关键特性是输出说话人的到达时间顺序。
所提出的方法采用了一个到达顺序说话人缓存Figure1:发言者缓存、先进先出队列和包含当前
(AOSC),用于存储之前观察到的说话人的帧级块及右上下文的输入缓冲区。
声学嵌入。与传统的跟踪缓冲区不同,AOSC根
本因其性能提升和使用便捷而受到欢迎。在[1,2]中,
据与其到达时间顺序相对应的说话人索引对嵌入
译分割被构架为基于置换不变训练损失[3]的帧级多
进行排序,并通过选择基于模型过去预测得分最
中分类问题。然而,这些系统的输出类别维度是固定
高的帧动态更新。值得注意的是,每个说话人存
1的。为解决这一限制,[4]和[5]采用了一个链式规
v储的嵌入数量由更新机制动态决定,确保了高效
6的缓存利用和精确的说话人跟踪。基准数据集上则范式来处理顺序输出,适应不同的说话人数量。
4Horiguchi等人[6,7]引入了EEND-EDA,该系统
4的实验验证了我们方法的有效性和灵活性,即使
8使用LSTM编码器-解码器来建模说话人吸引子,
1在低延迟设置中也是如此。这些结果确立了流式
.并随后通过两阶段聚类[8]进行扩展。最近,提出
7Sortformer作为实时多说话人跟踪的强大解决方
0案,并为流式多人语音处理奠定了基础。了基于注意力的编码器-解码器(AED)系统[9],
5其中包含了多遍推理。
2IndexTerms:流式说话人分离,EEND,说话人
:
v缓存,Sortformer,到达时间排序对于在线应用,如实时字幕或人机交互,说话
i
x者分离系统必须处理音频流并在实时识别说话者。
r
a为了满足这一需求,开发了几种在线神经说话者
1.介绍
分离系统。基于离线EEND-EDA框架[6,7],引
随着自动语音识别(ASR)系统的准确性不断入了分块版本BW-EDA-EEND[10],该版本以10
提高,对稳健的说话人区分框架的需求显著增长。秒的推理延迟逐步计算说话人嵌入。随后,提
您可能关注的文档
- DriftMoE: 处理概念漂移的专家混合方法-计算机科学-在线增量学习-专家混合.pdf
- 面向设计一种基于强化学习的云系统能量感知数据复制策略-计算机科学-强化学习-云数据.pdf
- 基于 LLM 的嵌入式先前案例检索-计算机科学-机器学习-信息检索-大语言模型.pdf
- 恢复节奏:使用 Transformer 模型为低资源语言孟加拉语进行标点符号恢复-计算机科学-深度学习-变换模型-自然语言处理.pdf
- PDB-Eval:大型多模态模型在个性化驾驶行为描述和解释中的评估-计算机科学-人工智能-多模态模型-驾驶辅助系统.pdf
- 自监督超声视频分割与特征预测及 3D 局部损失-计算机科学-自监督学习-超声成像.pdf
- 多语言维基百科表格中的事实不一致-计算机科学-人工智能-事实核查.pdf
- 全景学习地图集成学习分析和课程地图以实现跨课程的可扩展洞察-计算机科学-全景学习地图-机器学习.pdf
- 符合数据隐私的法律要求:一项关于匿名化技术的研究-计算机科学-机器学习-个人数据保护.pdf
- 2025年智能控制器公司发展战略和经营计划.docx
- 白天晚上教学课件.ppt
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题带答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解一套.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及完整答案详解1套.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解1套.docx
- 2025年山东菏泽市事业单位招聘急需紧缺岗位目录(第一批)笔试模拟试题参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及答案详解1套.docx
- 画西瓜教学课件.ppt
文档评论(0)