深度学习在语音情感识别中的应用与分析.docxVIP

下载本文档

20
0
约4.26千字
约 5页
2022-08-30 发布于湖南
举报
版权申诉

深度学习在语音情感识别中的应用与分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度学习在语音情感识别中的应用与分析　　摘要近年来，随着信息技术的飞速发展，智能设备正在逐渐地融入到人们的日常生活当中，语音作为人机交互的最为便捷的方式之一，得到了广泛的应用。让机器听懂人类语言的同时，如何实现与人类有感情的自然交流，是无数科研工作者的目标。语音情感识别的主要内容就是建立一种能够从语音中分析和识别人类情感的计算系统，实现人与机器的人性化交流。深度学习作为人工智能的核心技术，在图像识别、目标检测和自然语言处理等领域发挥着举足轻重的作用，取得了十分瞩目的研究成果。文章简要地分析了语言情感识别系统的核心技术，并结合深度学习技术进行了研究，最后总结了语音情感识别的应用场景。　　关键词人机交互；人工智能；语音情感识别；深度学习　　中图分类号tp3文献标识码a文章编号1674-6708（2019）229-0147-02 　　语言信息是多种信息的混合载体，其中包括内容信息、说话人信息和情感信息。目前基于内容信息的语音识别技术逐渐成熟并走向商用，由于缺乏情感的技术检测，大多数语音助手和智能设备都被用户反应交流时过于呆板。因此若要真正实现与人类的自然交流，语音情感识别必不？可少。　　现阶段语音情感识别技术的实现存在着诸多难题，主要包含3个方面。首先缺少通用的数据库，其中可根据语音数据是否贴近人类真实情感表达分为自然型，模仿型和诱发型[1]，而自然型数据的获得成本非常高；其次，能够有效区分不同情感类别的特征还没有统一和明确的定义；最后，系统模型和识别算法性能不佳。深度学习能够通过多层的非线性映射，能够有效的拟合任意复杂的函数变换。因此，利用其技术强大的变换能力可以提取语音中情感信息更高级的特征，并建立更好的动态？模型。　　1语音情感识别　　语音情感识别的主要任务是将蕴含在语音中的情感信息提取出来并识别出其类别。目前对于情感的描述主要有两种方法。第一种是基于离散的情感划分，将人类日常生活中广泛使用的基本情感分为愤怒、开心、兴奋、悲伤、厌恶等；另一种是基于连续维度情感划分，主要通过不同的效价度和激活程度来对不同情感进行区？分的。　　语音情感识别本质上属于模式识别任务的一种，系统主要包含3个部分，分别是预处理、特征提取和情感分类与匹配。　　1.1预处理　　预处理主要包括预加重、加窗分帧和端点检测3个部分。预加重是将语音信号通过一个一阶高通数字滤波器，去除口舌辐射，进一步提高语音的高频分辨率；加窗分帧是从发声器官的惯性出发，利用语音信号的短时平稳假设，使用汉明窗或者矩形窗将语音划分成帧，同时为了保证帧间平滑，通常使得相邻帧之间部分重叠，一般取帧长为20ms，帧移10ms；端点检测是一种能够有效去除语音信号的静音部分，检测出有效的语音片段，从而提高计算效率的方法，也叫静音切除？技术。　　1.2特征提取　　特征提取是语音情感识别问题的重难点，好的特征能够在有效区分不同类别的同时，对类间差异具有较好的鲁棒性。目前常用的情感特征主要有韵律学特征、谱特征和音质特？征等[2]。　　韵律学特征是领域内基于人类语音学知识提取的最为主要的特征之一[3]，主要包括基音频率、过零率、短时能量和共振峰等。这些韵律特征的变化构成了语音中不同的情感，能够有效的表征语调的变化和发音强度。如当一个人愤怒时，他的语气会不自觉的加重，音量升高，能量增加，音调高昂，语速加快；而当悲伤时则语气轻柔，音量降低，音调低沉，语速变慢等。目前韵律特征对情感的区分能力得到了学术界的一致？认可。　　谱特征从人耳的构造和声音处理机制出发，利用三角梅尔滤波器组来模拟人耳基底膜对不同频率信号分辨率不同的特性。生理学家通过研究表明，人耳听觉范围为20hz～20khz，且对低频信号的感知分辨率较高，高频信号的感知分辨率则较低，由此得到的梅尔倒谱系数也成为语音信号处理领域的普适性特征，并得到了广泛的应用[4]。其他常用的还有线性预测倒谱系数，对数功率谱系？数等。　　音质特征是指人在不同情感状态下语谱和音色方面的特征，谐波噪声比是目前常用的一种。人类说话时首先是通过声带的震动，再通过口腔，鼻腔，最后发出音波。随着情绪的波动变化，人在说话的过程中会不由自主地产生不同的音波形式，从而使音质也产生了差异。　　1.3分类模型　　语音情感识别的目标是依据不同情感的特征将其划分为不同类别，属于机器学习中典型的分类问题。目前被广泛使用到的模式方法有：高斯混合模型、支持向量机、循环神经网络和隐马尔可夫模型[5]等。高斯混合模型对语音情感数据的拟合性能高，但对训练数据的依据性强，且计算比较复杂；支持向量机仅基于样本数据的少部分，便可获得良好的分类结果，得到