LLAMA-MIMI: 具有交织语义和声学标记的语音语言模型.pdfVIP

LLAMA-MIMI: 具有交织语义和声学标记的语音语言模型.pdf

LLAMA-MIMI:具有交织语义和声学标记的语音语言模型

IssaSugiura,ShuheiKurita,YusukeOda,RyuichiroHigashinaka

KyotoUniversity,NIILLMC,NationalInstituteofInformatics,NagoyaUniversity

ABSTRACT

yqtSemantictoken

我们提出了Llama-Mimi，这是一种使用统一的词元化yqtAcoustictoken

Mimi(AudioTokenizer)q:quantizerlevel,t:frameindex

器和单个Transformer解码器来联合建模交错语义和

12341234・・・4

声学词元序列的语音语言模型。综合评估表明，Llama-y1y1y1y1y2y2y2y2yT/audio

本Mimi在声学一致性方面达到了最先进的性能，并且具

TransformerDecoder

译备保持说话人身份的能力。我们的分析进一步证明，增

中加量化器的数量可以提高声学保真度但会降低语言表audioy11y21y31y41y12y22y32y42・・・y4T

1现力，突显了维持长期连贯性的内在挑战。我们还引

v入了一种基于LLM作为裁判的评估方法来评估生成

2Fig.1.Llama-Mimi的模型架构。

8输出中的口语内容质量。我们的模型、代码和语音样

4本可供公众使用。

1.IndexTerms—语音语言模型，语音生成，自回个标记。虽然有效，但这种设计使训练和部署复杂化，

9需要跨多个模型进行细致的超参数调整。

0归建模

2与这些复杂的管道不同，自然语言处理（NLP）社

v1.介绍区已经证明，单个Transformer解码器的大规模语言

x模型可以实现显著的性能[8,9,10]并提供了诸如缩

a语音语言模型（SLMs）通过首先将波形转换为离放定律和训练稳定性等有价值的见解[11,12]。这些

散标记的序列，然后自回归地预测这些标记，将语音结果促使我们探索一种简单的、单一解码器的方法来

生成视为一个语言建模任务[1,2,3]。早期的研究建处理语音。

立了使用离散标记对语音进行建模的可能性[1]，后

在这项工作中，我们介绍了Llama-Mimi，一个基

来的进步通过分层标记策略改善了音频质量和长期一

更多 >