CN114203159B 语音情感识别方法、终端设备及计算机可读存储介质 (深圳市优必选科技股份有限公司).docxVIP

  • 1
  • 0
  • 约1.84万字
  • 约 29页
  • 2026-01-15 发布于重庆
  • 举报

CN114203159B 语音情感识别方法、终端设备及计算机可读存储介质 (深圳市优必选科技股份有限公司).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114203159B(45)授权公告日2025.07.04

(21)申请号202111615879.7

(56)对比文件

(22)申请日2021.12.27

CN111564164

A,2020.08.21

(65)同一申请的已公布的文献号

CN113256751

A,2021.08.13

申请公布号CN114203159A

审查员何元

(43)申请公布日2022.03.18

(73)专利权人深圳市优必选科技股份有限公司

地址518000广东省深圳市南山区学苑大

道1001号南山智园C1栋16、22楼

(72)发明人丁万黄东延赵之源杨志勇

(74)专利代理机构深圳中一联合知识产权代理

有限公司44414

专利代理师刘永康

(51)Int.CI.

G10L15/02(2006.01)

G10L25/63(2013.01)

权利要求书2页

说明书11页附图3页

(54)发明名称

语音情感识别方法、终端设备及计算机可读存储介质

(57)摘要

本申请适用于语音处理技术领域,提供了一种语音情感识别方法、装置、终端设备及计算机可读存储介质,包括:获取对待处理语音进行语音识别得到的文本特征,以及对所述待处理语音进行音频特征提取得到的音频特征;将所述文本特征映射到图像空间,获得图像特征;根据所述音频特征和所述文本特征的对应关系,将所述音频特征和所述图像特征进行信息融合,获得融合特征;根据所述融合特征识别所述待处理语音的情感类别。通过上述方法,可以有效提高语音情感识别的精度。

获取对待处理语音进行语音识别得到的文

本特征,以及对所述待处理语音进行音频

特征提取得到的音频特征

将所述文本特征映射到图像空间,获得图像特征

根据所述音频特征和所述文本特征的对应

关系,将所述音频特征和所述图像特征进

行信息融合,获得融合特征

根据所述融合特征识别所述待处理语音的情感类别

S201

S202

S203

S204

CN114203159

CN114203159B

CN114203159B权利要求书1/2页

2

1.一种语音情感识别方法,其特征在于,包括:

获取对待处理语音进行语音识别得到的文本特征,以及对所述待处理语音进行音频特征提取得到的音频特征;

将所述文本特征映射到图像空间,获得图像特征;

计算所述图像特征中的第一局部特征与所述文本特征中的第二局部特征之间的第一映射关系,其中,所述第一局部特征用于表征图像中的区域,所述第二局部特征用于表征文本中的词语;

计算所述音频特征中的第三局部特征与所述文本特征中的第四局部特征之间的第二映射关系,其中,所述第三局部特征用于表征音频中的音素,所述第四局部特征用于表征文本中的词语;

根据所述第一映射关系和所述第二映射关系,将所述音频特征和所述图像特征进行信息融合,获得融合特征;

根据所述融合特征识别所述待处理语音的情感类别。

2.如权利要求1所述的语音情感识别方法,其特征在于,在将所述文本特征映射到图像空间,获得图像特征之前,所述方法还包括:

获取训练文本、以及与所述训练文本表达语义相匹配的训练图像;

将所述训练文本的特征输入预设的生成器,获得生成图像的特征;

将所述生成图像的特征和所述训练图像的特征输入预设的判别器,获得判别结果;

根据所述判别结果更新所述生成器的参数,获得训练后的所述生成器;

相应的,所述将所述文本特征映射到图像空间,获得图像特征,包括:

将所述文本特征输入训练后的所述生成器,获得所述图像特征。

3.如权利要求1所述的语音情感识别方法,其特征在于,所述根据所述第一映射关系和所述第二映射关系,将所述音频特征和所述图像特征进行信息融合,获得融合特征,包括:

对于每组第三局部特征,根据所述第一映射关系和所述第二映射关系获取目标特征,所述目标特征为所述图像特征中与所述第三局部特征对应的第一局部特征;

将所述第三局部特征添加到所述目标特征上,获得融合后的所述目标特征;

在对所有第三局部特征处理后,将融合后的所述目标特征和未经融合的第一局部特征生成所述融合特征。

4.如权利要求1所述的语音情感识别方法,其特征在于,所述根据所述融合特征识别所述待处理语音的情感类别,包括:

对所述融合特征进行特征提取处理,获得目标特征;

将所述目标特征输入预设的分类器,输出所述情感类别。

5.如权利要求1所述的语音情感识别方法,其特

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档