数字图像处理与深度学习技术应用课件第12、13章基于深度学习CNN模型的语音识别、基于深度学习Faster R-CNN模型的手势识别.pptx

下载文档

0
0
约8.14千字
约 59页
2024-11-26 发布于山东
举报
版权申诉
保障服务

数字图像处理与深度学习技术应用课件第12、13章基于深度学习CNN模型的语音识别、基于深度学习Faster R-CNN模型的手势识别.pptx

1、本文档共59页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第12章基于深度学习CNN模型的语音识别

目录12.1语音识别系统设计12.2语音信号预处理及特征提12.2.1语音信号预处理12.2.2MFCC特征提取12.3构建语音识别模型12.3.1构建卷积神经网络模型12.3.2识别模型训练12.4语音识别模型检验

12.1语音识别系统设计

语音识别系统一般包含学习和识别两个过程。图12-1语音识别系统功能图

（1）数据收集和准备。（2）对语音信号进行预处理。包括语音信号分帧、预加重、提取语音信号的MFCC特征等操作。（3）构建语音信号训练集。将收集的语音信号进行预处理，按照帧的时间顺序和特征值转换成二维图像。（4）选择卷积神经网络（CNN）模型结构。（5）模型构建。在深度学习框架中构建语音识别模型，包括输入层、卷积/循环层、全连接层等组件，并选择适当的激活函数。（6）模型训练。将数据集划分为训练集、验证集和测试集。使用训练集对模型进行训练，使用验证集对模型进行模型调优，监控模型在训练集和验证集上的性能。（7）模型评估。使用测试集对模型进行评估，计算准确率、WER（WordErrorRate）等性能指标。

语音处理技术与深度学习相结合的识别过程：（1）获取待识别语音信号。（2）对待识别的语音信号进行与学习过程相同的预处理，包括包括语音信号分帧、预加重、提取语音信号的MFCC特征等操作，按照帧的时间顺序和特征值转换成二维图像。（3）使用训练好的模型对新的语音图像进行识别。（4）部署和应用。（5）误差分析和改进。（6）用户界面设计（可选）。

12.2语音信号预处理及特征提取

基本原理（1）语音信号预加重预加重的主要目的是为了使语音信号的频谱变得平坦。值取的是0.97，（2）分帧（2）将n个采样点结合在一起作为一个观测点位，成为一帧。为了解决相邻两帧变化过大的问题，相邻帧之间会有一段重叠区域，重叠区域的大小为n的值的二分之一或三分之一。（3）加窗加窗的意思就是加汉明窗，把汉明窗与每一帧相乘，以增加帧的连续性。的值为0.91.0，本模块中

基本原理式中，X(n)为语音信号，N为傅里叶变换点数。（4）快速傅里叶变换得到语音信号频谱上的分布。W(n)公式如下

实现步骤实现步骤如下：①获取语音信号；②语音信号预加重；③语音信号分帧；④语音信号加窗；⑤语音信号快速傅里叶变换。

12.2.2MFCC特征提取

基本原理（1）三角带通滤波器作用是使频谱更平滑，并消除谐波，增强原语音的共振峰。滤波器的公式为：（2）计算经过滤波器组后的语音信号对数能量公式如下：式中（3）通过离散余弦变化（DCT）得到MFCC特征

MFCC特征提取步骤MFCC特征提取步骤如下：①获取语音信号；②语音信号预加重；③语音信号分帧；④语音信号加窗；⑤语音信号快速傅里叶变换；⑥语音信号的频谱数据通过三角带通滤波器；⑦三角带通滤波器输出结果对数运算；⑧对数运算结果进行离散余弦变换得到MFCC特征矩阵；⑨根据MFCC特征矩阵值把特征矩阵转换为图像。

效果展示提取MFCC特征后，需要将特征矩阵转换为图像组成训练集来进行训练。图12-2一条语音MFCC特征图像

12.3构建语音识别模型

12.3.1构建卷积神经网络模型

（神经网络有十三层，步骤如下：①第一层为卷积层，filters为32，卷积核3*3，步长为1，padding为same。激活函数ReLU()激活，加入Dropout避免过度拟合；②第二层为卷积层，filters为32，卷积核3*3，步长为1，padding为same。激活函数ReLU()激活；③第三层为池化层，池化层进行MaxPool2d()取最大值，核的大小为2*2；④第四层为卷积层，filters为64，卷积核3*3，步长为1，padding为same。激活函数ReLU()激活，加入Dropout避免过度拟合；⑤第五层为卷积层，filters为64，卷积核3*3，步长为1，padding为same。激活函数ReLU()激活；⑥第六层为池化层，池化层进行MaxPool2d()取最大值，卷积核2*2，加入Dropout避免过度拟合；⑦第七层为卷积层，filters为128，卷积核3*3，步长为1，padding为same。激活函数ReLU()激活，加入Dropout避免过度拟合；⑧第八层为卷积层，filters为128，卷积核3*3，步长为1，padding为same。激活函数ReLU()激活；⑨第九层为池化层，池化层进行MaxPool2d()取最大值，卷积核2*2，加入Dropout避免过度拟合；⑩第十层为卷

您可能关注的文档

文档评论（0）

lai + 关注: 实名认证

内容提供者

精品资料

咨询Ta 进入空间

用户编号：7040145050000060

1亿VIP精品文档

更多 >

数字图像处理与深度学习技术应用课件第12、13章基于深度学习CNN模型的语音识别、基于深度学习Faster R-CNN模型的手势识别.pptx