非侵入式双耳语音可懂度预测用于听力障碍听众的 Mamba 方法-计算机科学-机器学习-语音可懂度-状态空间模型.pdf

非侵入式双耳语音可懂度预测用于听力障碍听众的 Mamba 方法-计算机科学-机器学习-语音可懂度-状态空间模型.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

非侵入式双耳语音可懂度预测用于听力障碍听众的Mamba方法

KatsuhikoYamamoto,KoichiMiyazaki

CyberAgent,Japan

{yamamoto_katsuhiko,miyazaki_koichi_xa}@cyberagent.co.jp

Abstract架构,并从Whisper[13]和WavLM[14]中提取了

“语音基础模型(SFM)”特征。它优于听力辅助言

语音可懂度预测(SIP)模型已被用作评估听力障

语感知指数(HASPI)版本2的双耳模型(beHASPI)

碍(HI)听众可懂度的客观指标。在ClarityPre-

[15]以及其他所有指标[10]。

dictionChallenge2(CPC2)中,基于变压器的非

侵入性双耳SIP模型显示出了高预测准确性。然正如CPC2中的E011模型所展示的,基于变

本而,自注意力机制理论上会导致计算和内存成本压器的方法已在非侵入式双耳SIP模型中被实际

高昂,成为低延迟、功耗效率设备的瓶颈。这可能上采用[16,17,18,19,20]。然而,自注意力机制

也会损害双耳SIP的时间处理。因此,我们建议理论上需要计算并占用大量内存。这种需

中在时间处理块中使用基于Mamba的SIP模型代求在如HAs等嵌入环境中形成了瓶颈,在这些环

1替变压器。实验结果表明,与基线相比,我们的提境中,长时间输入、超低延迟和功率效率是必不可

v

9议SIP模型达到了具有竞争力的表现,并保持了少的。相比之下,状态空间序列模型(SSMs),例

2

7相对较少的参数数量。我们的分析表明,基于双向如Mamba,可以在线性时间内使用常量内存进行

5Mamba的SIP模型有效捕捉双耳信号中的上下文推理[21]。这一能力使它们能够在实时操作中维持

0

7.和空间语音信息。长范围依赖关系,使其适用于计算量小且功耗低

0IndexTerms:语音可懂度,非侵入性指标,听的设备。

5

2力损失,清晰度挑战,状态空间模型因此,在本文中,我们提出了一种基于Manba

:

v的SIP模型来解决基于变压器模型的局限性。我

i

x1.介绍们的模型使用了Mamba而不是时间变换器,这

r

a对于包括语音应用在内的时序数据是有效的,并

语音可懂度(SI)是用于评估在噪声和失真条

且推理成本较低[21,22]。我们使用单声道和双声

件下口语单词和句子被听到程度的指标。这有助

道模型比较了基于变压器和基于Mamba模型之

于评估听

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档