- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号CN110534132A
(43)申请公布日2019.12.03
(21)申请号CN201910901182.2
(22)申请日2019.09.23
(71)申请人河南工业大学
地址450001河南省郑州市高新技术产业开发区莲花街100号河南工业大学科技处
(72)发明人姜芃旭雷沛之傅洪亮
(74)专利代理机构
代理人
(51)Int.CI
权利要求说明书说明书幅图
(54)发明名称
一种基于谱图特征的并行卷积循环
神经网络的语音情感识别方法
(57)摘要
本发明公布了一种基于谱图特征的
并行卷积循环神经网络的语音情感识别方
法。包括以下步骤:首先,从每条语音中
提取帧级特征,并利用长短期记忆网络逐
帧进行高级特征提取。同时,计算帧级特
征的一阶差分以及二阶差分,并将其组合
成三维特征,通过卷积神经网络来对这些
三维特征进行高级特征提取。然后将两个
高级特征融合并进行批归一化处理。最
后,使用SoftMax分类器对情感进行分
类。本发明的基于谱图特征的并行卷积循
环神经网的语音情感识别方法,模块内部
采用并行的连接结构来同时处理谱图特
征,能够有效的提升语音情感识别的性
能。
法律状态
法律状态公告日法律状态信息法律状态
发明专利申请公布后的视为撤回
IPC(主分类):G10L25/03专利申发明专利申请公布后
2023-03-03
请号:2019109011822申请公布的视为撤回
日
权利要求说明书
1.本发明公布了一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法,其
特征在于:包括以下步骤,
步骤(A)对原始语音数据预处理;
步骤(B)提取语音中的帧级特征;
步骤(C)利用并行卷积循环神经网络(PCRN)来提取高级特征并进行特征融合;
步骤(D)对融合特征进行批归一化(BN)处理;
步骤(E)利用softmax分类器对情感进行分类。
2.根据权利要求1所述的一种基于谱图特征的并行卷积循环神经网络的语音情感识
别方法,其特征在于:步骤(A),对原始语音数据预处理,为了提高模型的收敛速度,首先
对原始语音波形进行归一化处理。
3.根据权利要求1所述的一种基于谱图特征的并行卷积循环神经网络的语音情感识
别方法,其特征在于:步骤(B),提取语音中的帧级特征,包括以下步骤,
将步骤(A)中预处理过后的语音进行预加重,将语音信号通过一个高通滤波器:
H(Z)=1-μz
-1
预加重的目的是提升高频部分,使信号的频谱变得平坦;
然后对信号进行分帧,将N个采样点集合成一帧,并且为了避免相邻两帧的变化过大,
因此会让两相邻帧之间有一段重叠区域,我们将帧长设置为400,帧移设置为160;
将每一帧乘以汉明窗,以增加帧左端和右端的连续性,假设分帧后的信号为
S(n),n=0,1,...,N-1,N为帧的大小,那么乘上汉明窗后:
S′(n)=S(n)×W(n)
W(n)为汉明窗:
对加窗后的数据进行快速傅立叶变换,将时域中的信号转化为频域中进行观察,在乘
上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布,设语音
信号的DFT为:
x(n)为输入的语音信号;
然后将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波
器组,M取64,Mel滤波器的主要作用是对频谱进行平滑化,并消除谐波的作用,突显
原先语音的共振峰,将原始语音信号进行一系列操作后得到的帧级特征作为下一步
模型输入的特征之一,然后求出每段帧级特征的一阶差分和二
文档评论(0)