流式 Sortformer:基于发言者缓存的在线发言者分离与到达时间排序-计算机科学-机器学习-说话人分割-语音处理.pdfVIP

流式 Sortformer:基于发言者缓存的在线发言者分离与到达时间排序-计算机科学-机器学习-说话人分割-语音处理.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

流式Sortformer:基于发言者缓存的在线发言者分离与到达时间排序

IvanMedennikov,TaejinPark,WeiqingWang,HeHuang,KunalDhawan,JinhanWang,

JagadeeshBalam,BorisGinsburg

NVIDIA,USA

{imedennikov,taejinp,weiqingw,heh,kdhawan,jinhanw,jbalam,bginsburg}@

Abstract

本文提出了Sortformer说话人分割框架的流式扩

展,其关键特性是输出说话人的到达时间顺序。

所提出的方法采用了一个到达顺序说话人缓存Figure1:发言者缓存、先进先出队列和包含当前

(AOSC),用于存储之前观察到的说话人的帧级块及右上下文的输入缓冲区。

声学嵌入。与传统的跟踪缓冲区不同,AOSC根

本因其性能提升和使用便捷而受到欢迎。在[1,2]中,

据与其到达时间顺序相对应的说话人索引对嵌入

译分割被构架为基于置换不变训练损失[3]的帧级多

进行排序,并通过选择基于模型过去预测得分最

中分类问题。然而,这些系统的输出类别维度是固定

高的帧动态更新。值得注意的是,每个说话人存

1的。为解决这一限制,[4]和[5]采用了一个链式规

v储的嵌入数量由更新机制动态决定,确保了高效

6的缓存利用和精确的说话人跟踪。基准数据集上则范式来处理顺序输出,适应不同的说话人数量。

4Horiguchi等人[6,7]引入了EEND-EDA,该系统

4的实验验证了我们方法的有效性和灵活性,即使

8使用LSTM编码器-解码器来建模说话人吸引子,

1在低延迟设置中也是如此。这些结果确立了流式

.并随后通过两阶段聚类[8]进行扩展。最近,提出

7Sortformer作为实时多说话人跟踪的强大解决方

0案,并为流式多人语音处理奠定了基础。了基于注意力的编码器-解码器(AED)系统[9],

5其中包含了多遍推理。

2IndexTerms:流式说话人分离,EEND,说话人

:

v缓存,Sortformer,到达时间排序对于在线应用,如实时字幕或人机交互,说话

i

x者分离系统必须处理音频流并在实时识别说话者。

r

a为了满足这一需求,开发了几种在线神经说话者

1.介绍

分离系统。基于离线EEND-EDA框架[6,7],引

随着自动语音识别(ASR)系统的准确性不断入了分块版本BW-EDA-EEND[10],该版本以10

提高,对稳健的说话人区分框架的需求显著增长。秒的推理延迟逐步计算说话人嵌入。随后,提

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档