- 0
- 0
- 约2.04万字
- 约 31页
- 2026-01-22 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN113257279B(45)授权公告日2025.01.10
(21)申请号202110316240.2
(22)申请日2021.03.24
(65)同一申请的已公布的文献号申请公布号CN113257279A
(43)申请公布日2021.08.13
(73)专利权人厦门大学
地址361005福建省厦门市思明区思明南
路422-37号
(72)发明人叶嘉鑫刘昆宏吴昌鳜王煊泽文昕成罗妍
(74)专利代理机构北京金咨知识产权代理有限公司11612
专利代理师严业福
(51)Int.CI.
G1OL25/63(2013.01)
G10L25/30(2013.01)
G10L25/03(2013.01)
G10L25/24(2013.01)
G10L25/18(2013.01)
GO6F18/2415(2023.01)
GO6N3/0464(2023.01)
GO6N3/045(2023.01)
GO6N3/0442(2023.01)
GO6N3/084(2023.01)
G06N3/048(2023.01)
(56)对比文件
CN108154879A,2018.06.12CN108550375A,2018.09.18审查员钱莉
权利要求书3页说明书11页附图2页
(54)发明名称
一种基于GTCN的实时语音情感识别方法及应用装置
(57)摘要
CN113257279B一种基于GTCN的实时语音情感识别方法及应用装置,涉及生物特征识别技术领域,方法包括:步骤一、搜集一定数量的虚拟现实交互式语音游戏玩家的语音数据,对提取出来的数据进行预处理,包括端点检测和分帧加窗的操作;步骤二、提取预处理过后的语音数据的组合特征作为输入数据;步骤三、构建基于GTCN的模型,将输入数据经过训练,判断输入语音的情感;步骤四、结合输入数据和模型中的情感分类,与识别对象进行交互。相比其他语音情感识别方法,本发明实现了更高的准确率,在多个数据集中都表现出更佳的情感分类效果和更好的鲁棒性,并且能够以
CN113257279B
采集音频
采集音频
音频数据预处理并提取特征
实现语音情感的分类
结合场景与识别对象进行交互
CN113257279B权利要求书1/3页
2
1.一种基于GTCN的实时语音情感识别方法,所述方法包括:
采集不同情感的语音数据,对音频信息进行分帧,每帧使用25ms,帧移与帧长的比值为0.5来进行重叠操作,然后为每个语音段添加上汉明窗;
构造组合特征提取结构对音频数据进行时序性组合特征提取:首先对预处理后的语音信号分别提取梅尔倒频谱系数M、频谱对比度S、音调质心T、色度频率C四种特征,然后将提取出来的四个特征矩阵,按照梅尔倒频谱系数M、频谱对比度S、音调质心T、色度频率C的顺序进行线性组合成所述时序性组合特征X=[M,S,T,C];
构造门控时序卷积网络GTCN,通过提取的时序性组合特征输入网络并进行训练,实现语音情感的判别分类;
结合输入的数据和模型中的情感分类,判断游戏玩家的情感状态,从而提升玩家的人机交互体验,并且开发者通过搜集玩家的情感反馈,能够有针对性地对游戏进行优化;
其中,对语音特征的提取过程具体包括:
步骤(1),梅尔倒频谱系数特征提取:对预处理后的语音信号进行分帧加窗,对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱;并对语音信号的频谱取模平方得到语音信号的功率谱,接着将能量谱通过一组Mel尺度的三角形滤波器组,并计算每个滤波器组输出的对数能量,然后经离散余弦变换DCT得到MFCC系数;接着计算语音的一阶差分参数和二阶差分参数以及帧能量;最后将这些特征拼接在一起转化成一个39维的mfcc特征矩阵;
步骤(2),频谱对比度特征提取:首先在语音片段进行分帧加窗处理后,对于每帧进行快速傅里叶变换以获取频谱成分,接着将得到的频谱成分分成六个基于八度的子带,对各子带的FFT向量的元素降序排列,并计算出频谱峰值的强度Peak和谷值强度Valleyk,计算峰谷值的差是:SC=Peak-Valley,然后将峰谷值的差与谷值强度线性组合成原始频谱对比度特征{SC,Valley},最后对原始特征进行Karhunen-
您可能关注的文档
- CN112903545B 一种多通道传感系统和检测方法 (华侨大学).docx
- CN112906394B 地址识别方法、装置、设备和存储介质 (北京字节跳动网络技术有限公司).docx
- CN112934823B 一种物料智能识别自动清洗整理设备及方法 (古田县庄鑫菌业有限公司).docx
- CN112948662B 一种推荐方法、装置和用于推荐的装置 (北京搜狗科技发展有限公司).docx
- CN113011292B 一种光学传感像素电路及其驱动方法、传感器和显示面板 (京东方科技集团股份有限公司).docx
- CN113011603B 模型参数更新方法、装置、设备、存储介质及程序产品 (深圳前海微众银行股份有限公司).docx
- CN113032568B 一种基于bert+bilstm+crf并融合句型分析的查询意图识别方法 (同方知网(北京)技术有限公司).docx
- CN113052517B 取货机器人、取货方法、计算机可读存储介质 (北京极智嘉科技股份有限公司).docx
- CN113141255B 用于在处理设备、对应的处理设备和计算机程序产品中对数据执行密码运算的方法 (意法半导体股份有限公司).docx
- CN113200179B 具有真空冷却站的深拉包装机和真空冷却热包装产品的方法 (莫迪维克西普哈根牧勒股份及两合公司).docx
最近下载
- 雕塑维护方案养护.docx VIP
- 四川省成都市树德实验中学2024-2025学年七年级上学期期末考试道德与法治试题.docx VIP
- 对照不同光质补光对转色期葡萄品质和成分影响的初步探究.docx VIP
- 金属切削原理与刀具 配套课件.ppt
- T∕JNBDA 0009-2025 生殖医学高质量数据集建设规范.pdf VIP
- 上海高考:地理高频考点汇总.doc VIP
- 卫生部手术分级目录(2025年1月份修订).doc VIP
- DB11T 1087-2025公共建筑装饰装修工程质量验收标准.docx VIP
- 小学快乐体育教学活动的研究与实践课题研究报告.docx VIP
- 02S515 排水检查井图集建筑工程图集.docx VIP
原创力文档

文档评论(0)