从轮流发言到同步对话: 全双工口语模型综述.pdfVIP

  • 0
  • 0
  • 约2.03万字
  • 约 7页
  • 2026-02-26 发布于北京
  • 举报

从轮流发言到同步对话: 全双工口语模型综述.pdf

从轮流发言到同步对话:

全双工口语模型综述

YuxuanChenHaoyuanYu

JilinUniversity,Changchun,ChinaHunanUniversity,Changsha,China

yxchen5522@

ABSTRACT(a)Overlap(b)Backchannel

真正全双工(TFD)语音通信——实现同时倾听和说

Duet2s

Isee.Um...

本话,自然的轮流发言、重叠言语和打断——代表了朝

译向类人类AI交互的关键里程碑。本综述全面回顾了

(c)Intra-speakerPause

中LLM时代中的全双工口语语言模型(FD-SLMs)。我

1们建立了一个分类法,区分了工程同步(模块化架构)[pause1s][pause1s][pause1s]

v与学习同步(端到端架构),并将零散的评估方法统一

5I’mcheckingthefridge…we’vegoteggs…they’reexpired…let’sjust…

1为一个框架,涵盖时间动态、行为仲裁、语义连贯性(d)Interruption

5和声学性能。通过对主流FD-SLMs的比较分析,我们

4

1识别出基本挑战——同步数据稀缺、架构分歧和评估Pleasegrabmethedrinkinthetop-leftofthe…Coffee,please—black,nosugar.

.Pardon—teaorcoffee?

9差距——提供了推进人机通信的发展路线图。

0

1

5对于代码和更多细节,请参见GitHub。

2

:IndexTerms—真正的全双工,全双工口语模型,Fig.1.自然对话包含轮流事件:(a)重叠,(b)回渠,

v

i认知并行性,同步(c)停顿,和(d)打断。

x

r

a

1.介绍早期系统展示了增量处理[5]和有限状态控制[6],

实现了响应性而没有语义灵活性。LLM集成带来了工

当代SLMs从根本上缺乏进行自然对话所必需的程化同步[7–9]和端到端架构。在dGSLM的新兴轮流

同时听和说的能力。虽然LLMs在语

文档评论(0)

1亿VIP精品文档

相关文档