- 0
- 0
- 约2.14万字
- 约 6页
- 2026-02-27 发布于北京
- 举报
LLAMA-MIMI:具有交织语义和声学标记的语音语言模型
IssaSugiura,ShuheiKurita,YusukeOda,RyuichiroHigashinaka
KyotoUniversity,NIILLMC,NationalInstituteofInformatics,NagoyaUniversity
ABSTRACT
yqtSemantictoken
我们提出了Llama-Mimi,这是一种使用统一的词元化yqtAcoustictoken
Mimi(AudioTokenizer)q:quantizerlevel,t:frameindex
器和单个Transformer解码器来联合建模交错语义和
12341234・・・4
声学词元序列的语音语言模型。综合评估表明,Llama-y1y1y1y1y2y2y2y2yT/audio
本Mimi在声学一致性方面达到了最先进的性能,并且具
TransformerDecoder
译备保持说话人身份的能力。我们的分析进一步证明,增
中加量化器的数量可以提高声学保真度但会降低语言表audioy11y21y31y41y12y22y32y42・・・y4T
1现力,突显了维持长期连贯性的内在挑战。我们还引
v入了一种基于LLM作为裁判的评估方法来评估生成
2Fig.1.Llama-Mimi的模型架构。
8输出中的口语内容质量。我们的模型、代码和语音样
81
4本可供公众使用。
1.IndexTerms—语音语言模型,语音生成,自回个标记。虽然有效,但这种设计使训练和部署复杂化,
9需要跨多个模型进行细致的超参数调整。
0归建模
5
2与这些复杂的管道不同,自然语言处理(NLP)社
:
v1.介绍区已经证明,单个Transformer解码器的大规模语言
i
x模型可以实现显著的性能[8,9,10]并提供了诸如缩
r
a语音语言模型(SLMs)通过首先将波形转换为离放定律和训练稳定性等有价值的见解[11,12]。这些
散标记的序列,然后自回归地预测这些标记,将语音结果促使我们探索一种简单的、单一解码器的方法来
生成视为一个语言建模任务[1,2,3]。早期的研究建处理语音。
立了使用离散标记对语音进行建模的可能性[1],后
在这项工作中,我们介绍了Llama-Mimi,一个基
来的进步通过分层标记策略改善了音频质量和长期一
您可能关注的文档
- 显式与隐式传记:评估和调整基于 Wikidata 的文本中的 LLM 信息提取.pdf
- 变压器模型在社交机器人检测中的比较分析.pdf
- 计算机辅助设计驱动的飞行准备型喷气动力仿人机器人协同设计.pdf
- 通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题.pdf
- 跨模态知识蒸馏在语音大型语言模型中的应用.pdf
- GenKOL: 模块化生成 AI 框架用于可扩展虚拟 KOL 生成.pdf
- 自解释强化学习在 移动网络资源分配中的应用.pdf
- 成本性能分析:基于 CPU 的无服务器和基于 GPU 的训练架构的比较研究.pdf
- 返回耳朵:感知驱动的高保真音乐重构.pdf
- 人工智能与市场新进入者游戏开发者.pdf
最近下载
- 第10课《学会表达》教案-2025-2026学年第二学期三年级道德与法治统编版下册.docx
- 2026年湖南环境生物职业技术学院单招职业倾向性考试模拟测试卷附答案.docx VIP
- 2025年AWS认证AmazonRDS只读副本的只读副本用于数据仓库ETL专题试卷及解析.docx VIP
- (5)--《食品添加剂》课程教案.doc VIP
- (3)XH-BJDW-72(GY.24)型LED信号机故障报警仪说明书V1.0.pdf VIP
- 2026年广东教师招聘考试(教育教学通用能力测试)历年参考题库含答案详解.docx VIP
- 机械制造技术基础贾振元课后答案.pdf VIP
- ISO 22163:2023标准培训讲义.pptx
- 分析绿色建筑材料与传统建筑材料在性能和成本方面的优劣对比.pptx VIP
- 外研版五年级下册英语全册教案(三起).pdf VIP
原创力文档

文档评论(0)