- 0
- 0
- 约3.93万字
- 约 12页
- 2026-02-26 发布于北京
- 举报
面向类人类多模态对话代理
通过生成引人入胜的对话
TaesooKim,YongsikJo,HyunminSong,TaehwanKim
ArtificialIntelligenceGraduateSchool,UNIST,RepublicofKorea
{taesoo0630,josik,hyunminsong,taehwankim}@unist.ac.kr
Abstract[8]能够解释文本、视频和音频输入。尽管取得了
这些进步,当前这些模型仅能生成文本响应。也有
人类对话涉及语言、语音和视觉线索,每种媒介都
人尝试使用LLMs来生成其他模态的信息。这些
提供了互补的信息。例如,语音传达了一种语气
模型试图保留输入的语义信息,但常常在跨模态
或氛围,这些是单纯的文字所无法完全捕捉到的。
一致性[9,10]或因使用语音标记[11,12]而导致
虽然多模态的大规模语言模型专注于从多种输入
生成的语音丢失声学细节方面遇到困难。将文本
生成文本响应,但对生成自然且引人入胜的语音
本到语音(TTS)模块与LLMs集成是一种简单直接
的关注较少。我们提出一个基于对话情绪和回应
译的方法,能够实现有效的语音交互。然而,当前的
风格信息来生成语音响应的人类样化代理。为此,
中TTS模块[13,14,15]不足以实现考虑反映交流情
我们构建了一个新的MultiSensoryConversation
1绪的副语言信息的人类-like交流。
v数据集,重点在于语音,以使代理能够生成自然
7的语音。然后,我们提出了一种基于多模态大规开发所提出的对话代理需要一个大规模的多
2模态交互对话数据语料库。然而,由于现有数据
6模语言模型的方法,用于生成文本响应和语音描
4集通常受限于其较小规模或缺乏某些模态(如音
1述,这些被用来覆盖副语言信息的语音生成。实
.频),这构成了显著挑战。为克服这些限制,我们
9验结果证明了在对话中利用视觉和音频模态来生
0成引人入胜的语音的有效性。源代码可在https:提出了一个新的数据集,多感官对话(MSenC)数
5据集。我们的数据集是精心整理的约31,000条语
2///kimtaesu24/MSenC获得
:句集合,这些语句是从日常对话YouTube视频中
vIndexTerms:人机交互,计算副语言学
i提取出来的。创建这种对话模型依赖于对这种多
x
r
您可能关注的文档
- 关于代理编码表现的使用: 克劳德代码的经验研究.pdf
- 端到端说话人分割的极限挑战.pdf
- 基于转码器的电路分析以实现可解释的单细胞基础模型.pdf
- 减轻位置不确定性对基于无线电图的预测速率选择的影响通过噪声输入高斯过程.pdf
- Wohlart 的三环机构: 过约束和不稳定的连杆结构.pdf
- RATIONANOMALY: 基于链式思维和强化学习的合理性异常检测.pdf
- 系牢: 轻量级蒸馏阿拉伯语语音基础模型.pdf
- RealMirror:一个全面的开源视觉语言动作平台用于具身 AI.pdf
- DAIEN-TTS:解耦音频插补用于环境感知的文本到语音合成.pdf
- LEED:一个多智能体强化学习中高效且可扩展的 LLM 增强专家演示框架.pdf
最近下载
- 口腔数字化修复技术30课件.pptx VIP
- 《儿童血压测量规范》解读.pptx
- 中卫焦化厂冷凝鼓风工段初步设计.docx VIP
- 《心理学在管理中的应用》课件.ppt VIP
- 2026年黑龙江民族职业学院单招职业技能考试题库完整答案详解.docx VIP
- 第2课《幸福生活是奋斗出来的》教案-2025-2026学年第二学期三年级道德与法治统编版下册.docx
- 2025广东事业单位真题及答案.docx VIP
- 2026青海省公务员考试常识判断专项练习题有完整答案.docx VIP
- 银行保安服务 投标方案(技术方案).doc
- 2026中国藏语系高级佛学院招聘应届高校毕业生6人备考题库及一套参考答案详解.docx VIP
原创力文档

文档评论(0)