同理心全观：通过大型语言模型实现共情性语音响应生成.pdfVIP

同理心全观：通过大型语言模型实现共情性语音响应生成.pdf

同理心全观：通过大型语言模型实现共情性语音响应生成

HaoyuWangGuangyanZhangJialeChenJingyuLiYuehaiWangYiwenGuo

ZhejiangUniversity

LIGHTSPEED

IndependentResearcher

ABSTRACT地改变同一话语的意义。如果不准确解读用户的感情意图并以

一种共情的方式作出回应，语音系统可能会误解情况或产生不

随着语音大型语言模型（speechLLMs）的发展，用户现在可以

适当的输出，从而降低用户信任和体验。这一限制在需要高情

通过语音直接与助手进行交互。然而，大多数现有模型仅将响

商的场景中尤其重要，如心理健康支持、客户服务和教育辅导，

应内容转换为语音，而未能完全捕捉到用户查询中丰富的感情

这些场合中同理心沟通对于建立关系和效果至关重要。虽然韵

本线索，同样的句子可能因表达方式不同而传达不同的含义。因律和情感对话系统已经有所进步[9–11]，最近的语音大语言模

此，情感理解对于改善人机交互至关重要。大多数富有同理心

译的语音LLM依赖于大规模数据集，需要高昂的计算成本。一个型也开始解决共情回应生成的问题[12–14]，但这些方法依赖

于从数据集中隐式学习情感一致性，而没有明确的情感建模，这

中关键挑战是构建能够在有限数据和无需大规模训练的情况下生

需要高质量的情感对话数据和大量的训练。此外，情感对话数

3成富有同理心响应的模型。为此，我们提出了EmotionOmni，

v该模型能够理解用户语音中的情感内容并生成富有同理心的响据的有限可用性和高昂的标注成本阻碍了同理心能力的发展。

5应。我们进一步开发了一个数据管道，以构建支持富有同理心为应对这些挑战，我们提出了EmotionOmni模型，这是

6的语音助手的20万条情感对话数据集。实验表明，Emotion一个端到端的模型，明确利用用户语音中的情感特征来识别情

1Omni在没有大规模预训练的情况下实现了相当的指令遵循能绪并控制生成同理心回应。通过联合条件化输入语音中的语义

8.力，同时在语音质量（UTMOS:4.41）和同理心（EmotionGPT和情感表示，该模型生成文本响应以及控制合成语音音调和情

0Score:3.97）方面超越了现有模型。这些结果证实了其在语音感所需的情感特征。这种设计将语义和情感的建模分开，以避

5保真度和情感表达方面的改进。免特征纠缠。通过对响应的情感轨迹进行预测，实现了对言语

:演示可在https://w311411.github.io/omni_demo/获取。情绪的精细控制，使得同一话语内的自然过渡和变化成为可能，

iIndexTerms—语音大语言模型，全能型，情感语音交互，并确保合成过程中情绪表达的准确性和一致性。作为模型的补

r语音助手充，我们开发了一个成本效益高且可扩展的情感对话生成管道，