- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
一种轻量级且鲁棒的盲宽带至全带扩展语音的方法
JanBüthe,Jean-MarcValin
XFoundation
摘要—减少语音带宽是资源受限环境中的常见做法,如低在这篇论文中,我们试图通过结合基于数据驱动的
带宽语音传输或低复杂度声码器。我们提出了一种轻量级且鲁DNN方法的高带宽建模能力和基于DSP的BWE方法
棒的方法来扩展宽带语音信号的带宽,该方法受到语音编码上的简单性和低复杂度来克服这一问题。该方法受到经典时
下文中开发的经典方法启发。所得模型仅有370K参数和
域带宽扩展的启发,在其中将非线性函数应用或频谱折叠
140MFLOPS(或70MMACS)的复杂度。使用10ms的
帧长以及仅0.27ms的预览,该模型非常适合与常见的宽带语等带宽扩展操作应用于上采样信号,并与随时间变化的频
音编解码器一起使用。我们通过将其与OpusSILK语音编解码谱整形滤波器结合。所得到算法的信号处理部分仅包含经
器(1.5版本)配对评估了模型的鲁棒性,并在P.808DCR听力典的DSP,即:固定非线性映射、固定和随时间变化的线
测试中验证它显著提高了从6到12kb/s的质量。我们还展示性滤波以及随时间变化的样本加权。这些随时间变化的滤
了Opus1.5在9kb/s下与所提出的带宽扩展一起使用达到了
本波器和样本权重又由一个小型DNN进行调整,该DNN控
3GPPEVS在9.6kb/s和Opus1.4在18kb/s的质量水平,
译表明盲带宽扩展可以达到经典引导带宽扩展的质量,从而提供了制生成的高带信号的内容和形状。所得到模型使用回归与
中一种向后兼容的质量改进方式。对抗损失的混合进行训练。它有370K个参数,并且计
4算复杂度为140MFLOPS(或70MMACS),使其适用
v1.介绍于即使在较旧的智能手机设备上也能使用。此外,由于它
2
9是围绕低延迟上采样器构建的,因此仅需额外0.27ms的
3限制语音带宽是一种处理资源受限情况的常见技术。最显前瞻时间以及可能与宽频语音生成系统共享的10ms的帧
1著的例子是实时通信中的语音编码,通常使用窄带编解码
1延时。
.器(例如G.711[1])或宽带编解码器(例如AMR-WB[2],
2为了测试模型的鲁棒性,我们将其与Opus编解码器
1OpusSILK[3])。第二个例子是复杂度受限环境中的神经1
4(1.5版)结合,并在P.808听音测试中确认,虽然BWE
声码器(例如LPCNet[4]),它被用于许多应用,如文本到
2模型仅使用清晰语音进行训练,但它为所有测试比特率提
:语音合成或语音增强。
v供了持续改进。此外,我们在混合编码模式下包含了超宽
i虽然带宽降低对于节约资源是有效的,并且(在大多
x带编解码器EVS[15]在9.6kb/s和Opus1.4在18kb/s,
r数情况下)保持了语音可懂度,但它确实会降级收听体验
a
您可能关注的文档
- 无损量子计算通过减少量子比特开销以实现高效的算术运算-计算机科学-机器学习-量子算术-量子哈密顿计算.pdf
- DiffGradCAM: 一种抵抗对抗训练的通用类激活图方法-计算机科学-深度神经网络-可解释性-类激活映射.pdf
- SpecMaskFoley: 通过 ControlNet 引导预训练的频谱掩码生成变换器实现同步视频到音频的合成-计算机科学-音频生成-视频生成.pdf
- 离散时间双层遗忘 RLS 识别在有限激励下的应用-计算机科学-机器学习-自适应系统-参数识别.pdf
- 动手操作:从连续序列中分割单个符号-计算机科学-连续手语分割-机器学习.pdf
- 什么是通用人工智能?-计算机科学-人工通用智能.pdf
- 那是你的最终答案?测试时间缩放改进选择性问答-计算机科学-大语言模型-模型推理.pdf
- 石鱼:支持海洋机器人中的机器学习研究-计算机科学-人工智能-海洋机器人.pdf
- 提示调优强盗:实现高效的多任务离线 RL 的少样本泛化能力-计算机科学-强化学习-大型预训练变换模型-人工智能.pdf
- 人类变异性与机器一致性:对人类和大型语言模型生成文本的语用分析-计算机科学-大语言模型-自然语言生成.pdf
- 面向在开放 RAN 边缘的真实世界网络管理中深度强化学习代理的实际操作-计算机科学-强化学习-网络管理和编排.pdf
- 忠实的从地震震源重建构造俯冲带的 REEB 图-计算机科学-机器学习-拓扑数据分析-图形重构技术.pdf
- 太赫兹频率范围内用于太阳能采集的超材料吸收器的设计与优化-计算机科学-超材料-太阳能采集.pdf
- psifx - 心理与社会互动特征提取包-计算机科学-多模态-视频-音频-语言特征提取-Python.pdf
- INSTRUCT-MUSICGEN:通过指令微调解锁音乐语言模型的文本到音乐编辑功能-计算机科学-文本到音乐生成-AI辅助音乐创作.pdf
- 一种新的使用 PDA 的热插拔编码缓存方案-计算机科学-编码缓存-热插拔-算法.pdf
文档评论(0)