从轮流发言到同步对话：全双工口语模型综述.pdfVIP

从轮流发言到同步对话：全双工口语模型综述.pdf

从轮流发言到同步对话：

全双工口语模型综述

YuxuanChenHaoyuanYu

JilinUniversity,Changchun,ChinaHunanUniversity,Changsha,China

yxchen5522@

ABSTRACT(a)Overlap(b)Backchannel

真正全双工（TFD）语音通信——实现同时倾听和说

Duet2s

Isee.Um...

本话，自然的轮流发言、重叠言语和打断——代表了朝

译向类人类AI交互的关键里程碑。本综述全面回顾了

(c)Intra-speakerPause

中LLM时代中的全双工口语语言模型（FD-SLMs）。我

1们建立了一个分类法，区分了工程同步（模块化架构）[pause1s][pause1s][pause1s]

v与学习同步（端到端架构），并将零散的评估方法统一

5I’mcheckingthefridge…we’vegoteggs…they’reexpired…let’sjust…

1为一个框架，涵盖时间动态、行为仲裁、语义连贯性(d)Interruption

5和声学性能。通过对主流FD-SLMs的比较分析，我们

1识别出基本挑战——同步数据稀缺、架构分歧和评估Pleasegrabmethedrinkinthetop-leftofthe…Coffee,please—black,nosugar.

.Pardon—teaorcoffee?

9差距——提供了推进人机通信的发展路线图。

5对于代码和更多细节，请参见GitHub。

:IndexTerms—真正的全双工，全双工口语模型，Fig.1.自然对话包含轮流事件：（a）重叠，（b）回渠，

i认知并行性，同步（c）停顿，和（d）打断。

1.介绍早期系统展示了增量处理[5]和有限状态控制[6]，

实现了响应性而没有语义灵活性。LLM集成带来了工

当代SLMs从根本上缺乏进行自然对话所必需的程化同步[7–9]和端到端架构。在dGSLM的新兴轮流