DiffSoundStream-通过扩散解码实现高效的语音标记化-计算机科学-神经网络-语音生成.pdf

下载文档

0
0
约3.1万字
约 7页
2025-07-17 发布于北京
举报
版权申诉
保障服务

DiffSoundStream-通过扩散解码实现高效的语音标记化-计算机科学-神经网络-语音生成.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于令牌的语言建模是语音生成的一种重要方法，其中令牌通过量化来自自监督学习（SSL）模型的特征并从神经语音编解码器中提取代码获得，通常称为语义令牌和声学令牌。这些令牌通常是自回归建模的，推理速度受到令牌速率的限制。在这项工作中，我们提出了DiffSoundStream，一个解决方案，通过两种技术提高了非流式场景下语音标记化的效率：(1)将神经编解码器有条件地应用于语义令牌以最小化语义和声学令牌之间的冗余，以及(2)利用潜在扩散模型从语义和粗粒度的声学令牌中合成高质量波形。实验表明，在每秒

DiffSoundStream：通过扩散解码实现高效的语音标记化

YangYang,YunpengLi,GeorgeSung,Shao-FuShih,CraigDooley,AlessioCentazzo,

RamananRajeswaran

GoogleLLC.

{yanghm,yunpeng,gsung,shaofu,dooleyc,centazzo,ramanan}@

Abstract算效率和重建质量。AR模型的计算成本与其处理

的标记序列长度成正比，因此降低标记率（以每秒

基于令牌的语言建模是语音生成的一种重要方法，

语音中的标记数为单位）成为了一种有吸引力的

其中令牌通过量化来自自监督学习（SSL）模型的

策略，可以减少推理延迟、降低计算需求并简化建

特征并从神经语音编解码器中提取代码获得，通

模任务。此外，较低的标记率延长了给定固定标记

常称为语义令牌和声学令牌。这些令牌通常是自

上下文窗口时AR模型能够处理的有效音频上下

回归建模的，推理速度受到令牌速率的限制。在这

本文长度。另一方面，激进地降低标记率会损害语音

项工作中，我们提出了DiffSoundStream，一个解

译保真度，需要仔细优化速率失真权衡。效率与质量

决方案，通过两种技术提高了非流式场景下语音

中之间的这种平衡仍然是基于标记的语音系统设计

标记化的效率：(1)将神经编解码器有条件地应用

1中的核心考虑因素。

v于语义令牌以最小化语义和声学令牌之间的冗余，

2以及(2)利用潜在扩散模型从语义和粗粒度的声减少失真的一种方法是通过增加码本的大小

6来增强每个标记的信息容量。然而，这种方法本

3学令牌中合成高质量波形。实验表明，在每秒50

2质上是不可扩展的，因为码本的大小会随着分配

2个令牌的情况下，DiffSoundStream达到了与标准

.给每个标记的位数呈指数增长。在我们的工作中，

6SoundStream模型在两倍令牌速率下相当的语音

0质量。此外，我们仅使用四个扩散采样步骤实现了我们遵循每个标记2048的固定码本书，这是以前

5解决方案[14,13]采用的标准配置，并将努力转向

2步长大小蒸馏，并且只有轻微的质量损失。

:优化标记率（每秒标记数）。

vIndexTerms:语音分词，神经语音编解码器，潜

x在扩散模型在这项工作中，我们将范围限制在编码和解

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

DiffSoundStream-通过扩散解码实现高效的语音标记化-计算机科学-神经网络-语音生成.pdf