现代语音信号处理(Python版)教学课件第12章 语音情感计算N.ppt

现代语音信号处理(Python版)教学课件第12章 语音情感计算N.ppt

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
核的比较 现有5个一维数据 x1=1, x2=2, x3=4, x4=5, x5=6, 其中 1, 2, 6 为 class 1,4, 5 为class 2 ? y1=1, y2=1, y3=-1, y4=-1, y5=1 选择 polynomial kernel of degree 2 K(x,y) = (xy+1)2 C = 100 求解 ai (i=1, …, 5) 1 2 4 5 6 例子 例子 通过二次规划求解,得到 支持向量为 {x2=2, x4=5, x5=6} 判别函数为 b 满足 f (2)=1, f (5) = -1, f (6)=1, 得到 b=9 结果 判别函数 1 2 4 5 6 class 2 class 1 class 1 SVM 应用 分类、回归、密度估计 手写字符识别 文本自动分类 人脸识别 时间序列预测 蛋白质识别 DNA 排列分析 上面介绍的是两类样本的分类问题,如果需要对 类问题进行分类,则需要对SVM进行组合。组合的策略有“一对一”和“一对多”。“一对多”的思想是在该类样本和不属于该类的样本之间构建一个超平面,假设总共有k个类别,则需要构建k个分类器,每个分类器分别用第 类的样本作为正样本,其余的样本作为负样本。该方法的缺点是样本数目不对称,负样本比正样本要多很多,故分类器训练的惩罚因子很难选择。“一对一”的方式是每两类样本间构造一个超平面,一共需要训练k(k-1)/2个分类器,最后识别样本时采用后验概率最大法选定待识别样本的类型,“一对一”的方法的缺点是训练的分类器比较多。 12.5 深度学习模型 12.5.1 ACRNN模型 2018年,作为深度学习算法在语音情感识别领域应用中的典型模型ACRNN被提出。该算法不仅在实验中取得了良好的性能,也作为一种基线模型被广泛用于后续的研究中。该模型包含了多个3维卷积层,一个最大池化层,一个线性层以及一个LSTM层。 模型采用对数梅尔频谱图及其一阶差分、二阶差分构成的三维特征向量作为输入,频谱图特征和动态的一阶、二阶特征分别对应CNN的R、G、B三个处理通道。在提取特征时,采用汉明窗进行分帧,窗长25ms,窗的移动步长10ms。对每一帧计算DFT,然后使用包含40个滤波器的梅尔滤波器组进行特征提取。 得到特征后,将其输入多个堆叠的CNN。其中,第一个CNN具有128个卷积核,其余的CNN均具有256个卷积核,并且仅在第一个CNN后进行最大池化操作。CNN中使用的激活函数为LeakyReLU。 然后模型通过Bi-LSTM学习特征中的时间信息。将CNN的输出向量重整后再用Bi-LSTM进行特征提取,每个方向的LSTM具有128个神经元,因此Bi-LSTM最终输出256维的句级特征向量。 对于句级特征向量而言,不是所有信息都与情感的表达有关。因此,采用注意力机制来区分CRNN输出的情感信息。 最后,再利用softmax分类器得到语音情感识别模型的最终情感概率输出。 12.5.2 情感特征增强算法 对语音信号而言,不同时间片段中所包含的信息量是不尽相同的。在语音情感计算任务中也是如此,即语音在不同时间段所包含的情感饱和度是不同的。这种差异不仅体现在时间维度上,在特征维度上亦存在,即不同的特征对情感类别的区分能力是有差异的。 尽管原始声学特征经过深度学习网络提炼后无法与原始特征一一对应了,即在新的维度空间中特征丧失了原始的物理意义,这也是神经网络普遍存在的问题,但这种特征间的差异并不会因此而消失。 1)时间维度加权 模型以LSTM最后一个时间步的输出 作为参考量对所有时间步输出构成的矩阵 作注意力运算,将获取的加权系数作用在 的时间维度上,并在时间维度上求和作为输出。 2)特征维度加权 单个特征很难完成多类别分类任务,所以常常需要多个特征进行组合以完成多类别分类。但每个特征对目标任务的可区分程度是不尽相同的,为表达这种特征的差异性,模型在特征维度上也进行了注意力加权计算。 12.6 应用与展望 载人航天中的应用 儿童情绪能力评估 情感多媒体搜索 智能机器人 服务质量评估 载人航天中的应用 儿童情绪能力评估 情感计算是近年来新兴的一个多学科交叉的研究领域,是重大科学挑战课题之一 儿童的情绪能力和性格 儿童情感特质的培养和校正 儿童的性格培养和早期教育具有较大的指导作用 本项目是以情感语音、人脸表情和情感电生理参数为主的多模态儿童情绪分析与分类的研究 通过每个儿童的行为表现方式体现出来 儿童情绪能力的评测技术 对儿童往后的表现产生相当积极正面的影响 情感多媒体搜索 智能机器人 服务质量评估 非特定说话人 声学特征 情感识别模型 服务质量考评 特征规整化 迄今为止,有关自杀、抑郁症等的预防对策大都是进行各项调查并以医

文档评论(0)

allen734901 + 关注
实名认证
内容提供者

知识共享

1亿VIP精品文档

相关文档