面向类人类多模态对话代理通过生成引人入胜的对话.pdfVIP

  • 0
  • 0
  • 约3.93万字
  • 约 12页
  • 2026-02-26 发布于北京
  • 举报

面向类人类多模态对话代理通过生成引人入胜的对话.pdf

面向类人类多模态对话代理

通过生成引人入胜的对话

TaesooKim,YongsikJo,HyunminSong,TaehwanKim

ArtificialIntelligenceGraduateSchool,UNIST,RepublicofKorea

{taesoo0630,josik,hyunminsong,taehwankim}@unist.ac.kr

Abstract[8]能够解释文本、视频和音频输入。尽管取得了

这些进步,当前这些模型仅能生成文本响应。也有

人类对话涉及语言、语音和视觉线索,每种媒介都

人尝试使用LLMs来生成其他模态的信息。这些

提供了互补的信息。例如,语音传达了一种语气

模型试图保留输入的语义信息,但常常在跨模态

或氛围,这些是单纯的文字所无法完全捕捉到的。

一致性[9,10]或因使用语音标记[11,12]而导致

虽然多模态的大规模语言模型专注于从多种输入

生成的语音丢失声学细节方面遇到困难。将文本

生成文本响应,但对生成自然且引人入胜的语音

本到语音(TTS)模块与LLMs集成是一种简单直接

的关注较少。我们提出一个基于对话情绪和回应

译的方法,能够实现有效的语音交互。然而,当前的

风格信息来生成语音响应的人类样化代理。为此,

中TTS模块[13,14,15]不足以实现考虑反映交流情

我们构建了一个新的MultiSensoryConversation

1绪的副语言信息的人类-like交流。

v数据集,重点在于语音,以使代理能够生成自然

7的语音。然后,我们提出了一种基于多模态大规开发所提出的对话代理需要一个大规模的多

2模态交互对话数据语料库。然而,由于现有数据

6模语言模型的方法,用于生成文本响应和语音描

4集通常受限于其较小规模或缺乏某些模态(如音

1述,这些被用来覆盖副语言信息的语音生成。实

.频),这构成了显著挑战。为克服这些限制,我们

9验结果证明了在对话中利用视觉和音频模态来生

0成引人入胜的语音的有效性。源代码可在https:提出了一个新的数据集,多感官对话(MSenC)数

5据集。我们的数据集是精心整理的约31,000条语

2///kimtaesu24/MSenC获得

:句集合,这些语句是从日常对话YouTube视频中

vIndexTerms:人机交互,计算副语言学

i提取出来的。创建这种对话模型依赖于对这种多

x

r

文档评论(0)

1亿VIP精品文档

相关文档