CN113257279B 一种基于gtcn的实时语音情感识别方法及应用装置（厦门大学）.docxVIP

下载本文档

0
0
约2.04万字
约 31页
2026-01-22 发布于重庆
举报

CN113257279B 一种基于gtcn的实时语音情感识别方法及应用装置（厦门大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN113257279B(45)授权公告日2025.01.10

(21)申请号202110316240.2

(22)申请日2021.03.24

(65)同一申请的已公布的文献号申请公布号CN113257279A

(43)申请公布日2021.08.13

(73)专利权人厦门大学

地址361005福建省厦门市思明区思明南

路422-37号

(72)发明人叶嘉鑫刘昆宏吴昌鳜王煊泽文昕成罗妍

(74)专利代理机构北京金咨知识产权代理有限公司11612

专利代理师严业福

(51)Int.CI.

G1OL25/63(2013.01)

G10L25/30(2013.01)

G10L25/03(2013.01)

G10L25/24(2013.01)

G10L25/18(2013.01)

GO6F18/2415(2023.01)

GO6N3/0464(2023.01)

GO6N3/045(2023.01)

GO6N3/0442(2023.01)

GO6N3/084(2023.01)

G06N3/048(2023.01)

(56)对比文件

CN108154879A,2018.06.12CN108550375A,2018.09.18审查员钱莉

权利要求书3页说明书11页附图2页

(54)发明名称

一种基于GTCN的实时语音情感识别方法及应用装置

(57)摘要

CN113257279B一种基于GTCN的实时语音情感识别方法及应用装置，涉及生物特征识别技术领域，方法包括：步骤一、搜集一定数量的虚拟现实交互式语音游戏玩家的语音数据，对提取出来的数据进行预处理，包括端点检测和分帧加窗的操作；步骤二、提取预处理过后的语音数据的组合特征作为输入数据；步骤三、构建基于GTCN的模型，将输入数据经过训练，判断输入语音的情感；步骤四、结合输入数据和模型中的情感分类，与识别对象进行交互。相比其他语音情感识别方法，本发明实现了更高的准确率，在多个数据集中都表现出更佳的情感分类效果和更好的鲁棒性，并且能够以

CN113257279B

采集音频

音频数据预处理并提取特征

实现语音情感的分类

结合场景与识别对象进行交互

CN113257279B权利要求书1/3页

1.一种基于GTCN的实时语音情感识别方法，所述方法包括：

采集不同情感的语音数据，对音频信息进行分帧，每帧使用25ms,帧移与帧长的比值为0.5来进行重叠操作，然后为每个语音段添加上汉明窗；

构造组合特征提取结构对音频数据进行时序性组合特征提取：首先对预处理后的语音信号分别提取梅尔倒频谱系数M、频谱对比度S、音调质心T、色度频率C四种特征，然后将提取出来的四个特征矩阵，按照梅尔倒频谱系数M、频谱对比度S、音调质心T、色度频率C的顺序进行线性组合成所述时序性组合特征X=[M,S,T,C];

构造门控时序卷积网络GTCN,通过提取的时序性组合特征输入网络并进行训练，实现语音情感的判别分类；

结合输入的数据和模型中的情感分类，判断游戏玩家的情感状态，从而提升玩家的人机交互体验，并且开发者通过搜集玩家的情感反馈，能够有针对性地对游戏进行优化；

其中，对语音特征的提取过程具体包括：

步骤(1),梅尔倒频谱系数特征提取：对预处理后的语音信号进行分帧加窗，对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱；并对语音信号的频谱取模平方得到语音信号的功率谱，接着将能量谱通过一组Mel尺度的三角形滤波器组，并计算每个滤波器组输出的对数能量，然后经离散余弦变换DCT得到MFCC系数；接着计算语音的一阶差分参数和二阶差分参数以及帧能量；最后将这些特征拼接在一起转化成一个39维的mfcc特征矩阵；

步骤(2),频谱对比度特征提取：首先在语音片段进行分帧加窗处理后，对于每帧进行快速傅里叶变换以获取频谱成分，接着将得到的频谱成分分成六个基于八度的子带，对各子带的FFT向量的元素降序排列，并计算出频谱峰值的强度Peak和谷值强度Valleyk,计算峰谷值的差是：SC=Peak-Valley,然后将峰谷值的差与谷值强度线性组合成原始频谱对比度特征{SC,Valley},最后对原始特征进行Karhunen-

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN113257279B 一种基于gtcn的实时语音情感识别方法及应用装置（厦门大学）.docxVIP