采用GSWM参数的多分类器融合语音情感识别.doc

下载文档

5
0
约4.26万字
约 66页
2019-01-15 发布于安徽
举报
版权申诉
保障服务

采用GSWM参数的多分类器融合语音情感识别.doc

1、本文档共66页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

采用 GSWM 参数的多分类器融合语音情感识别中文摘要采用 GSWM 参数的多分类器融合语音情感识别中文摘要语音情感识别指的是通过计算机学习算法，自动由语音判断出说话人的情感状态，主要涉及到语音情感特征参数的提取和情感识别算法。语音情感的自动识别技术在教育、娱乐、医疗等领域都有着广阔的应用前景。本文针对情感语音细节信息，提出了 GSWM（Gaussian Spectrally Weighted MFCC）模型空间参数，并针对单一类别的语音特征或者单个分类器识别效果不够理想的问题，提出了多分类器融合语音情感识别的方法。在语音情感特征方面，本文提出了基于线谱权重的 SWMFCC（Spectrally Weighted MFCC, SWMFCC）新特征，将具有良好量化和插值特性的 LSF（Line Spectrum Frequency）与体现人耳听觉特性的 MFCC（Mel-Frequency Cepstral Coefficients）相融合，以双向获取说话人情感表达特性与听者情感感知特性。同时，为了获取更高维的情感细节信息，通过具有较好鲁棒性的高斯混合模型来对该参数建立模型空间，将其扩展为 GSWM 模型空间参数，以进一步提高情感识别性能。在情感识别方面，不同于特征层融合的传统方法，本文提出了采用 D-S （Dempster-Shafer）证据理论的多分类器融合语音情感识别方法，将不同语音情感特征组对应的分类器输出进行融合，以更有效的处理各类特征识别的不确定性。各单分类器选用支持向量机（Support Vector Machine, SVM），分别就韵律类特征、音质类特征以及本文提出的体现情感细节变化的 GSWM 特征进行情感识别，并运用 D-S 证据理论对多个单分类器的识别结果进行融合。本文采用柏林情感语料库中的愤怒、高兴、平静、悲伤、恐惧以及厌烦六种情感对 GSWM 参数及多分类器融合算法进行验证。实验结果表明，本文提出的 SWMFCC 参数以及 GSWM 参数均可以有效地表现出语音情感，提高情感识别率，GSWM 参数在 SVM 分类器下正确识别率可达 83.75%。经过 D-S 多分类器融合后，实验结果得到进一步的明显提高，平均识别率达到了 90.50%。 I 中文摘要采用 GSWM 参数的多分类器融合语音情感识别关键词：语音情感识别；模型空间；融合；高斯混合模型；多分类器作者：沈燕指导教师：陶智肖仲喆 II 采用 GSWM 参数的多分类器融合语音情感识别 Abstract Speech Emotion Recognition using GSWM Feature and Fusion of Multiple Classifiers Abstract Speech emotion recognition is to automatically detect the speaker’s emotion state according to speech using machine learning methods, which mainly involves feature extraction and classification algorithms. Speech emotion recognition can be widely used in education, entertainment, medical treatment and so on. In this paper, we propose a model space parameter named GSWM, and a recognition method with the fusion of multiple classifiers, due to unsatisfied recognition rate with single group of features or single classifier. In feature extraction, we propose a new feature group SWMFCC, combining LSF with good interpolation and quantization performance and MFCC which presents human auditory characteristics, to get bidirectional presentings from both the expression of the speaker and the emotional perception of the l