- 0
- 0
- 约2.03万字
- 约 7页
- 2026-02-26 发布于北京
- 举报
从轮流发言到同步对话:
全双工口语模型综述
YuxuanChenHaoyuanYu
JilinUniversity,Changchun,ChinaHunanUniversity,Changsha,China
yxchen5522@
ABSTRACT(a)Overlap(b)Backchannel
真正全双工(TFD)语音通信——实现同时倾听和说
Duet2s
Isee.Um...
本话,自然的轮流发言、重叠言语和打断——代表了朝
译向类人类AI交互的关键里程碑。本综述全面回顾了
(c)Intra-speakerPause
中LLM时代中的全双工口语语言模型(FD-SLMs)。我
1们建立了一个分类法,区分了工程同步(模块化架构)[pause1s][pause1s][pause1s]
v与学习同步(端到端架构),并将零散的评估方法统一
5I’mcheckingthefridge…we’vegoteggs…they’reexpired…let’sjust…
1为一个框架,涵盖时间动态、行为仲裁、语义连贯性(d)Interruption
5和声学性能。通过对主流FD-SLMs的比较分析,我们
4
1识别出基本挑战——同步数据稀缺、架构分歧和评估Pleasegrabmethedrinkinthetop-leftofthe…Coffee,please—black,nosugar.
.Pardon—teaorcoffee?
9差距——提供了推进人机通信的发展路线图。
0
1
5对于代码和更多细节,请参见GitHub。
2
:IndexTerms—真正的全双工,全双工口语模型,Fig.1.自然对话包含轮流事件:(a)重叠,(b)回渠,
v
i认知并行性,同步(c)停顿,和(d)打断。
x
r
a
1.介绍早期系统展示了增量处理[5]和有限状态控制[6],
实现了响应性而没有语义灵活性。LLM集成带来了工
当代SLMs从根本上缺乏进行自然对话所必需的程化同步[7–9]和端到端架构。在dGSLM的新兴轮流
同时听和说的能力。虽然LLMs在语
您可能关注的文档
- 位置:使用大型语言模型对非结构化临床记录进行主题分析.pdf
- MMED:基于音视频融合的多模态微表情数据集.pdf
- 跨语言 F5-TTS:迈向语言无关的声音克隆和语音合成.pdf
- 弱对抗神经推前映射用于 Fokker-Planck 方程.pdf
- 域适应 用于溃疡性结肠炎严重程度估计使用患者级诊断.pdf
- DICE: 稀疏视图 CT 重建的扩散共识平衡.pdf
- 基于扩散的二维地图视觉定位通过 BEV 条件下的 GPS 去噪.pdf
- 具有结构约束的可重构多机器人拆卸系统的分层规划与调度.pdf
- RADIOLUNADIFF:月球地形中无线网络信号强度的估计.pdf
- CLAIP-EMO:语言监督模型的参数高效适应于野外音视频情感识别.pdf
原创力文档

文档评论(0)