- 0
- 0
- 约1.98万字
- 约 6页
- 2026-02-27 发布于北京
- 举报
同理心全观:通过大型语言模型实现共情性语音响应生成
HaoyuWangGuangyanZhangJialeChenJingyuLiYuehaiWangYiwenGuo
ZhejiangUniversity
LIGHTSPEED
IndependentResearcher
ABSTRACT地改变同一话语的意义。如果不准确解读用户的感情意图并以
一种共情的方式作出回应,语音系统可能会误解情况或产生不
随着语音大型语言模型(speechLLMs)的发展,用户现在可以
适当的输出,从而降低用户信任和体验。这一限制在需要高情
通过语音直接与助手进行交互。然而,大多数现有模型仅将响
商的场景中尤其重要,如心理健康支持、客户服务和教育辅导,
应内容转换为语音,而未能完全捕捉到用户查询中丰富的感情
这些场合中同理心沟通对于建立关系和效果至关重要。虽然韵
本线索,同样的句子可能因表达方式不同而传达不同的含义。因律和情感对话系统已经有所进步[9–11],最近的语音大语言模
此,情感理解对于改善人机交互至关重要。大多数富有同理心
译的语音LLM依赖于大规模数据集,需要高昂的计算成本。一个型也开始解决共情回应生成的问题[12–14],但这些方法依赖
于从数据集中隐式学习情感一致性,而没有明确的情感建模,这
中关键挑战是构建能够在有限数据和无需大规模训练的情况下生
需要高质量的情感对话数据和大量的训练。此外,情感对话数
3成富有同理心响应的模型。为此,我们提出了EmotionOmni,
v该模型能够理解用户语音中的情感内容并生成富有同理心的响据的有限可用性和高昂的标注成本阻碍了同理心能力的发展。
5
5应。我们进一步开发了一个数据管道,以构建支持富有同理心为应对这些挑战,我们提出了EmotionOmni模型,这是
6的语音助手的20万条情感对话数据集。实验表明,Emotion一个端到端的模型,明确利用用户语音中的情感特征来识别情
8
1Omni在没有大规模预训练的情况下实现了相当的指令遵循能绪并控制生成同理心回应。通过联合条件化输入语音中的语义
8.力,同时在语音质量(UTMOS:4.41)和同理心(EmotionGPT和情感表示,该模型生成文本响应以及控制合成语音音调和情
0Score:3.97)方面超越了现有模型。这些结果证实了其在语音感所需的情感特征。这种设计将语义和情感的建模分开,以避
5保真度和情感表达方面的改进。免特征纠缠。通过对响应的情感轨迹进行预测,实现了对言语
2
:演示可在https://w311411.github.io/omni_demo/获取。情绪的精细控制,使得同一话语内的自然过渡和变化成为可能,
v
iIndexTerms—语音大语言模型,全能型,情感语音交互,并确保合成过程中情绪表达的准确性和一致性。作为模型的补
x
r语音助手充,我们开发了一个成本效益高且可扩展的情感对话生成管道,
a
使用开源TTS技术。该管道采
您可能关注的文档
- 梦想 : 域感知推理用于高效的自主水下监测.pdf
- 高斯对齐通过单视图重建估计相对相机姿态.pdf
- GitHub 的 Copilot 代码审查:人工智能能否在你提交之前发现安全漏洞?.pdf
- 气压计辅助姿态估计.pdf
- 用于森林砍伐检测的联邦学习:一种基于卫星图像的分布式方法.pdf
- 无监督 ALS EPICS 事件日志中的异常检测.pdf
- 从 3D 定位到图像处理的 CLAP 泛化,与 RANSAC 及 Hough 变换的关联.pdf
- 现代化 Facebook 限定搜索:关键词与嵌入式混合检索结合大语言模型评估.pdf
- 立臂协调操作用于幕墙安装.pdf
- 使用视觉语言模型控制仿生手:评估物体感知和抓握推断.pdf
最近下载
- 关注学生身心健康纳入日常管理.pptx
- 江苏海事职业技术学院单招职测参考试题库(含答案).docx VIP
- 2026年安庆医药高等专科学校单招职业适应性考试必刷测试卷含答案.docx VIP
- 卫生事业管理学课件 第二章 管理理论与管理职能.ppt VIP
- 电信行业业务基础知识.docx VIP
- Discovery软件操作完整版.pptx VIP
- QCR 9161-2023铁路工程建设项目临时用地复垦规范.pdf VIP
- 新目标七年级Unit7Itisraining第六课时.ppt VIP
- 新外研版九年级下册英语 Module 5 Unit 1 教案(教学设计).docx VIP
- 2018年新建南昌经景德镇至黄山铁路水土保持方案报告书.pdf
原创力文档

文档评论(0)