- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第12章基于深度学习CNN模型的语音识别
目录12.1语音识别系统设计12.2语音信号预处理及特征提12.2.1语音信号预处理12.2.2MFCC特征提取12.3构建语音识别模型12.3.1构建卷积神经网络模型12.3.2识别模型训练12.4语音识别模型检验
12.1语音识别系统设计
语音识别系统一般包含学习和识别两个过程。图12-1语音识别系统功能图
(1)数据收集和准备。(2)对语音信号进行预处理。包括语音信号分帧、预加重、提取语音信号的MFCC特征等操作。(3)构建语音信号训练集。将收集的语音信号进行预处理,按照帧的时间顺序和特征值转换成二维图像。(4)选择卷积神经网络(CNN)模型结构。(5)模型构建。在深度学习框架中构建语音识别模型,包括输入层、卷积/循环层、全连接层等组件,并选择适当的激活函数。(6)模型训练。将数据集划分为训练集、验证集和测试集。使用训练集对模型进行训练,使用验证集对模型进行模型调优,监控模型在训练集和验证集上的性能。(7)模型评估。使用测试集对模型进行评估,计算准确率、WER(WordErrorRate)等性能指标。
语音处理技术与深度学习相结合的识别过程:(1)获取待识别语音信号。(2)对待识别的语音信号进行与学习过程相同的预处理,包括包括语音信号分帧、预加重、提取语音信号的MFCC特征等操作,按照帧的时间顺序和特征值转换成二维图像。(3)使用训练好的模型对新的语音图像进行识别。(4)部署和应用。(5)误差分析和改进。(6)用户界面设计(可选)。
12.2语音信号预处理及特征提取
基本原理(1)语音信号预加重预加重的主要目的是为了使语音信号的频谱变得平坦。值取的是0.97,(2)分帧(2)将n个采样点结合在一起作为一个观测点位,成为一帧。为了解决相邻两帧变化过大的问题,相邻帧之间会有一段重叠区域,重叠区域的大小为n的值的二分之一或三分之一。(3)加窗加窗的意思就是加汉明窗,把汉明窗与每一帧相乘,以增加帧的连续性。的值为0.91.0,本模块中
基本原理式中,X(n)为语音信号,N为傅里叶变换点数。(4)快速傅里叶变换得到语音信号频谱上的分布。W(n)公式如下
实现步骤实现步骤如下:①获取语音信号;②语音信号预加重;③语音信号分帧;④语音信号加窗;⑤语音信号快速傅里叶变换。
12.2.2MFCC特征提取
基本原理(1)三角带通滤波器作用是使频谱更平滑,并消除谐波,增强原语音的共振峰。滤波器的公式为:(2)计算经过滤波器组后的语音信号对数能量公式如下:式中(3)通过离散余弦变化(DCT)得到MFCC特征
MFCC特征提取步骤MFCC特征提取步骤如下:①获取语音信号;②语音信号预加重;③语音信号分帧;④语音信号加窗;⑤语音信号快速傅里叶变换;⑥语音信号的频谱数据通过三角带通滤波器;⑦三角带通滤波器输出结果对数运算;⑧对数运算结果进行离散余弦变换得到MFCC特征矩阵;⑨根据MFCC特征矩阵值把特征矩阵转换为图像。
效果展示提取MFCC特征后,需要将特征矩阵转换为图像组成训练集来进行训练。图12-2一条语音MFCC特征图像
12.3构建语音识别模型
12.3.1构建卷积神经网络模型
(神经网络有十三层,步骤如下:①第一层为卷积层,filters为32,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;②第二层为卷积层,filters为32,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;③第三层为池化层,池化层进行MaxPool2d()取最大值,核的大小为2*2;④第四层为卷积层,filters为64,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;⑤第五层为卷积层,filters为64,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;⑥第六层为池化层,池化层进行MaxPool2d()取最大值,卷积核2*2,加入Dropout避免过度拟合;⑦第七层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活,加入Dropout避免过度拟合;⑧第八层为卷积层,filters为128,卷积核3*3,步长为1,padding为same。激活函数ReLU()激活;⑨第九层为池化层,池化层进行MaxPool2d()取最大值,卷积核2*2,加入Dropout避免过度拟合;⑩第十层为卷
您可能关注的文档
- 数字图像处理与深度学习技术应用 课件 第4、5章 图像几何变换、图像的灰度变化.pptx
- 数字图像处理与深度学习技术应用 课件 第6、7章 图像平滑处理、图像边缘锐化处理.pptx
- 数字图像处理与深度学习技术应用 课件 第8、9章 图像形态学处理、图像分割与测量.pptx
- 数字图像处理与深度学习技术应用 课件 第9、10章 图像分割与测量、图像频域变换处理.pptx
- 数字图像处理与深度学习技术应用 课件 第11、12章 基于深度学习CNN模型的汉字识别、基于深度学习CNN模型的语音识别.pptx
- 数字图像处理与深度学习技术应用 课件 第1--3章 图像处理编程基础、 彩色图像特效处理、图像的合成处理.pptx
- 云南省曲靖市宣威市2024-2025学年高二上学期11月月考英语试题(无答案).docx
- 云南省曲靖市宣威市2024-2025学年高二上学期10月月考英语试题(无答案).docx
- 云南省曲靖市宣威市2024-2025学年高一上学期10月月考英语试题(无答案).docx
- 云南省曲靖市宣威市2024-2025学年高一上学期11月月考英语试题(无答案).docx
- 主题四 微专题1 中国优秀传统文化的内涵、价值与演变.docx
- 主题四 微专题1 中国优秀传统文化的内涵、价值与演变.pptx
- Unit 5 Music 单元词汇默写与运用(含答案)-2024-2025学年高中英语人教版(2019)必修第二册.docx
- 安徽省天长市2024-2025学年高三上学期第四次学情调研考试历史试题(含解析).docx
- Unit 3 The Internet 单元词汇默写与运用(含答案)--2024-2025学年高中英语人教版(2019)必修第二册.docx
- 部编人教版二年级下册道德与法治《我的环保小搭档》课件.pptx
- 山东省中企质信检测技术有限公司实验室建设项且建设项目环境影响报告表(污染影响类).pdf
- 北师大版(2019)必修第三册Unit 7 Art Lesson 3 A Musical Genius 课文变形语法填空(含答案).docx
- 福建省龙岩市2024-2025学年高一上学期1月期末英语试题(无答案).docx
- 广东省广州市2024-2025学年高三2月月考英语试题(无答案).docx
文档评论(0)