LLAMA-MIMI: 具有交织语义和声学标记的语音语言模型.pdfVIP

  • 0
  • 0
  • 约2.14万字
  • 约 6页
  • 2026-02-27 发布于北京
  • 举报

LLAMA-MIMI: 具有交织语义和声学标记的语音语言模型.pdf

LLAMA-MIMI:具有交织语义和声学标记的语音语言模型

IssaSugiura,ShuheiKurita,YusukeOda,RyuichiroHigashinaka

KyotoUniversity,NIILLMC,NationalInstituteofInformatics,NagoyaUniversity

ABSTRACT

yqtSemantictoken

我们提出了Llama-Mimi,这是一种使用统一的词元化yqtAcoustictoken

Mimi(AudioTokenizer)q:quantizerlevel,t:frameindex

器和单个Transformer解码器来联合建模交错语义和

12341234・・・4

声学词元序列的语音语言模型。综合评估表明,Llama-y1y1y1y1y2y2y2y2yT/audio

本Mimi在声学一致性方面达到了最先进的性能,并且具

TransformerDecoder

译备保持说话人身份的能力。我们的分析进一步证明,增

中加量化器的数量可以提高声学保真度但会降低语言表audioy11y21y31y41y12y22y32y42・・・y4T

1现力,突显了维持长期连贯性的内在挑战。我们还引

v入了一种基于LLM作为裁判的评估方法来评估生成

2Fig.1.Llama-Mimi的模型架构。

8输出中的口语内容质量。我们的模型、代码和语音样

81

4本可供公众使用。

1.IndexTerms—语音语言模型,语音生成,自回个标记。虽然有效,但这种设计使训练和部署复杂化,

9需要跨多个模型进行细致的超参数调整。

0归建模

5

2与这些复杂的管道不同,自然语言处理(NLP)社

:

v1.介绍区已经证明,单个Transformer解码器的大规模语言

i

x模型可以实现显著的性能[8,9,10]并提供了诸如缩

r

a语音语言模型(SLMs)通过首先将波形转换为离放定律和训练稳定性等有价值的见解[11,12]。这些

散标记的序列,然后自回归地预测这些标记,将语音结果促使我们探索一种简单的、单一解码器的方法来

生成视为一个语言建模任务[1,2,3]。早期的研究建处理语音。

立了使用离散标记对语音进行建模的可能性[1],后

在这项工作中,我们介绍了Llama-Mimi,一个基

来的进步通过分层标记策略改善了音频质量和长期一

文档评论(0)

1亿VIP精品文档

相关文档