流式 Sortformer：基于发言者缓存的在线发言者分离与到达时间排序-计算机科学-机器学习-说话人分割-语音处理.pdfVIP

下载本文档

2
0
约2.55万字
约 8页
2025-07-30 发布于北京
举报
版权申诉

流式 Sortformer：基于发言者缓存的在线发言者分离与到达时间排序-计算机科学-机器学习-说话人分割-语音处理.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

流式Sortformer：基于发言者缓存的在线发言者分离与到达时间排序

IvanMedennikov,TaejinPark,WeiqingWang,HeHuang,KunalDhawan,JinhanWang,

JagadeeshBalam,BorisGinsburg

NVIDIA,USA

{imedennikov,taejinp,weiqingw,heh,kdhawan,jinhanw,jbalam,bginsburg}@

Abstract

本文提出了Sortformer说话人分割框架的流式扩

展，其关键特性是输出说话人的到达时间顺序。

所提出的方法采用了一个到达顺序说话人缓存Figure1:发言者缓存、先进先出队列和包含当前

（AOSC），用于存储之前观察到的说话人的帧级块及右上下文的输入缓冲区。

声学嵌入。与传统的跟踪缓冲区不同，AOSC根

本因其性能提升和使用便捷而受到欢迎。在[1,2]中，

据与其到达时间顺序相对应的说话人索引对嵌入

译分割被构架为基于置换不变训练损失[3]的帧级多

进行排序，并通过选择基于模型过去预测得分最

中分类问题。然而，这些系统的输出类别维度是固定

高的帧动态更新。值得注意的是，每个说话人存

1的。为解决这一限制，[4]和[5]采用了一个链式规

v储的嵌入数量由更新机制动态决定，确保了高效

6的缓存利用和精确的说话人跟踪。基准数据集上则范式来处理顺序输出，适应不同的说话人数量。

4Horiguchi等人[6,7]引入了EEND-EDA，该系统

4的实验验证了我们方法的有效性和灵活性，即使

8使用LSTM编码器-解码器来建模说话人吸引子，

1在低延迟设置中也是如此。这些结果确立了流式

.并随后通过两阶段聚类[8]进行扩展。最近，提出

7Sortformer作为实时多说话人跟踪的强大解决方

0案，并为流式多人语音处理奠定了基础。了基于注意力的编码器-解码器（AED）系统[9]，

5其中包含了多遍推理。

2IndexTerms:流式说话人分离，EEND，说话人

v缓存，Sortformer，到达时间排序对于在线应用，如实时字幕或人机交互，说话

x者分离系统必须处理音频流并在实时识别说话者。

a为了满足这一需求，开发了几种在线神经说话者

1.介绍

分离系统。基于离线EEND-EDA框架[6,7]，引

随着自动语音识别(ASR)系统的准确性不断入了分块版本BW-EDA-EEND[10]，该版本以10

提高，对稳健的说话人区分框架的需求显著增长。秒的推理延迟逐步计算说话人嵌入。随后，提

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

流式 Sortformer：基于发言者缓存的在线发言者分离与到达时间排序-计算机科学-机器学习-说话人分割-语音处理.pdfVIP