基于调制频谱特征的自动语音情感识别.pdfVIP

基于调制频谱特征的自动语音情感识别.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十二届全国人机语音通讯学术会议 中国·贵阳 2013 基于调制频谱特征的自动语音情感识别* 张鼎天,徐明星 普适计算教育部重点实验室 清华信息科学与技术国家实验室(筹) 清华大学 计算机科学与技术系,北京100084 文 摘: 本文采用调制频谱特征来自动识别人的语音中的情感信息。受人耳听觉系统启发,语音信号通过听觉滤波 器组以及调制滤波器组得到长时频域-时域表示,从而获得声学频率和时域调制频率的信息,进而提取出调制频谱特 征。通过将该特征在演员表演的德语Berlin 语音库和采集自真实生活的中文情感语音库上进行语音情感分类实验,发 现该特征与传统的短时频谱特征,如梅尔频率倒谱系数和感知线性预测系数相比,具有良好的性能和应用前景。 关键词:情感识别;语音调频;频域-时域表示;情感计算;语音分析 中图分类号:TP 391 情感计算是目前活跃的跨学科研究领域。该领 果;第五部分为总结。 域中语音情感识别(SER) 的目标是从说话人的语音 1 语音信号的ST 表示 信号识别潜在的情感状态。识别的结果可以广泛应 用到包括人机交互等各个方面。 受动物的听觉系统启发,语音信号的频域时域 频谱特征(包括倒谱特征)在SER 中发挥了显 (ST)表示可用图1 所示方法提取。首先进行预处理, 著的作用。它们传达语音信号的频率含量,并为韵 将语音信号以8kHz 重采样,并用P.56 语音电压计 律特征提供补充信息。然而,设计更有效的情感识 将其活跃语音强度归一化为-26dBov 。由于情感信 别频谱特征的工作还嫌不足。传统频谱特征,例如 息可通过频带有限的电话会话即可可靠传达,我们 著名的梅尔频率倒谱系数(MFCC),只考虑信号的短 认为 8kHz 的采样频率即可胜任SER。不含重叠部 时频域属性,而忽略了重要的长时演化趋势。这种 分的语音帧被G.729 语音活跃检测算法鉴别为活跃 局限性会进一步影响SER 的性能。另一方面,神经 或非活跃,只有活跃的语音帧予以保留。 科学的研究成果显示哺乳动物听觉皮层的频域时 预处理后的语音信号s(n) 进行加窗,采用 域(ST)感受野可以长达数百毫秒,并对时间-频率域 256ms 窗长、64ms 窗移的汉明窗,得到s (n) ,k k 的调制产生反应。语音调制频谱的重要性也在很多 代表帧号。相对较长的窗长对于最低滤波器中心频 领域得以验证,包括听觉生理,心理声学,语音感 率为4kHz 的低调制频率而言是必须的。 知,信号分析与合成。 因此,人们提出了情感识别的长时的调制频谱 [1] 预处理 s (n) 听觉滤 s (i,n) 希尔伯 特征(MSFs) 。对语音信号的多个声学频率窗进行 k k 时域取包络操作,然后进行频率分析得到的特征便 与加窗 波器组 1i  N 特包络 同时包含频域和时域的属性。这些特征被应用于对 已标注分类好的语音信号进行情感分类,实验结果 Hk (i,n) 显示其性能优于传统特征。 E (i, j ) 能量取 Hk (i, j ,n) 调频滤 ST 表示 k 由于该特征仅被用于德语的Berlin 情感语

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档