CN113257279B 一种基于gtcn的实时语音情感识别方法及应用装置 (厦门大学).docxVIP

  • 0
  • 0
  • 约2.04万字
  • 约 31页
  • 2026-01-22 发布于重庆
  • 举报

CN113257279B 一种基于gtcn的实时语音情感识别方法及应用装置 (厦门大学).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN113257279B(45)授权公告日2025.01.10

(21)申请号202110316240.2

(22)申请日2021.03.24

(65)同一申请的已公布的文献号申请公布号CN113257279A

(43)申请公布日2021.08.13

(73)专利权人厦门大学

地址361005福建省厦门市思明区思明南

路422-37号

(72)发明人叶嘉鑫刘昆宏吴昌鳜王煊泽文昕成罗妍

(74)专利代理机构北京金咨知识产权代理有限公司11612

专利代理师严业福

(51)Int.CI.

G1OL25/63(2013.01)

G10L25/30(2013.01)

G10L25/03(2013.01)

G10L25/24(2013.01)

G10L25/18(2013.01)

GO6F18/2415(2023.01)

GO6N3/0464(2023.01)

GO6N3/045(2023.01)

GO6N3/0442(2023.01)

GO6N3/084(2023.01)

G06N3/048(2023.01)

(56)对比文件

CN108154879A,2018.06.12CN108550375A,2018.09.18审查员钱莉

权利要求书3页说明书11页附图2页

(54)发明名称

一种基于GTCN的实时语音情感识别方法及应用装置

(57)摘要

CN113257279B一种基于GTCN的实时语音情感识别方法及应用装置,涉及生物特征识别技术领域,方法包括:步骤一、搜集一定数量的虚拟现实交互式语音游戏玩家的语音数据,对提取出来的数据进行预处理,包括端点检测和分帧加窗的操作;步骤二、提取预处理过后的语音数据的组合特征作为输入数据;步骤三、构建基于GTCN的模型,将输入数据经过训练,判断输入语音的情感;步骤四、结合输入数据和模型中的情感分类,与识别对象进行交互。相比其他语音情感识别方法,本发明实现了更高的准确率,在多个数据集中都表现出更佳的情感分类效果和更好的鲁棒性,并且能够以

CN113257279B

采集音频

采集音频

音频数据预处理并提取特征

实现语音情感的分类

结合场景与识别对象进行交互

CN113257279B权利要求书1/3页

2

1.一种基于GTCN的实时语音情感识别方法,所述方法包括:

采集不同情感的语音数据,对音频信息进行分帧,每帧使用25ms,帧移与帧长的比值为0.5来进行重叠操作,然后为每个语音段添加上汉明窗;

构造组合特征提取结构对音频数据进行时序性组合特征提取:首先对预处理后的语音信号分别提取梅尔倒频谱系数M、频谱对比度S、音调质心T、色度频率C四种特征,然后将提取出来的四个特征矩阵,按照梅尔倒频谱系数M、频谱对比度S、音调质心T、色度频率C的顺序进行线性组合成所述时序性组合特征X=[M,S,T,C];

构造门控时序卷积网络GTCN,通过提取的时序性组合特征输入网络并进行训练,实现语音情感的判别分类;

结合输入的数据和模型中的情感分类,判断游戏玩家的情感状态,从而提升玩家的人机交互体验,并且开发者通过搜集玩家的情感反馈,能够有针对性地对游戏进行优化;

其中,对语音特征的提取过程具体包括:

步骤(1),梅尔倒频谱系数特征提取:对预处理后的语音信号进行分帧加窗,对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱;并对语音信号的频谱取模平方得到语音信号的功率谱,接着将能量谱通过一组Mel尺度的三角形滤波器组,并计算每个滤波器组输出的对数能量,然后经离散余弦变换DCT得到MFCC系数;接着计算语音的一阶差分参数和二阶差分参数以及帧能量;最后将这些特征拼接在一起转化成一个39维的mfcc特征矩阵;

步骤(2),频谱对比度特征提取:首先在语音片段进行分帧加窗处理后,对于每帧进行快速傅里叶变换以获取频谱成分,接着将得到的频谱成分分成六个基于八度的子带,对各子带的FFT向量的元素降序排列,并计算出频谱峰值的强度Peak和谷值强度Valleyk,计算峰谷值的差是:SC=Peak-Valley,然后将峰谷值的差与谷值强度线性组合成原始频谱对比度特征{SC,Valley},最后对原始特征进行Karhunen-

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档