人工智能基础与应用（第2版）（微课版）课件模块7 语音识别：让机器对你言听计从.pptx

下载文档

0
0
约4.54千字
约 62页
2025-03-16 发布于山东
举报
版权申诉
保障服务

人工智能基础与应用（第2版）（微课版）课件模块7 语音识别：让机器对你言听计从.pptx

1、本文档共62页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

7-1语音识别模块?语音识别：让机器对你言听计从

目录CONTENTS语音识别简史01语音识别过程02

一.语音识别简史1.技术发展简史

一.语音识别简史1.典型语音识别产品现有的语音识别部分产品

二.语音识别过程1.语音识别技术涉及技术信号处理模式识别概率论发声机理听觉机理人工智能…众所周知，机器只能处理数字信号，不能直接处理人的语音信号。另外，人在说话的时候，语速有快有慢，每个人的声音、语调也不相同，且说话时周围可能有噪声。此外，即便字词发音相同（如“拟定”“你定”），但表达的意思还要结合语境和上下文来进一步确定。还有，机器要进行预学习，以了解人类在语言交流中要用到哪些语料库等。困难重重…

二.语音识别过程2.识别过程语音识别过程

二.语音识别过程2.语音识别关键要素（1）语音信号处理将语音转化为在时间上离散的数字信号采样后的时域数字波形

二.语音识别过程2.语音识别关键要素（2）特征提取

二.语音识别过程2.语音识别关键要素特征提取:①预加重增大高频部分的幅度。一般使用一阶滤波器来实现预加重

二.语音识别过程2.语音识别关键要素特征提取:②分帧信号中的频率会随时间变化，一些信号处理算法（如傅里叶变换）通常希望信号是稳定的，也就是说对整个信号进行处理是没有意义的，因为信号的频率轮廓会随着时间的推移而丢失。为了避免这种情况，就需要对信号进行分帧处理，以保证短时的信号是稳定的。③加窗和快速傅里叶转换在分帧之后，通常需要对每帧的信号进行加窗处理，目的是让帧两端平滑地衰减，这样可以降低后续傅里叶变换后一些小束波的强度，取得更高质量的频谱。

二.语音识别过程2.语音识别关键要素语音识别5关键要素:④提取特征在语音能量谱上应用Mel滤波器组就能提取到FBank（FilterBank）特征。所谓Mel刻度，是一个能模拟人耳接收声音的规律的刻度。各帧FBank特征值频谱图

二.语音识别过程2.语音识别关键要素声学模型用于建立声学特征与建模单元之间的映射关系，即它能利用语音的声学特征把一系列语音帧转换成若干音素。基于该模型，利用大量的语音特征向量以及它们对应的音素，可以训练从特征向量到音素的分类器，从而在识别阶段能计算每一帧的特征向量到相应音素的声学得分（概率），简而言之，实现特征到字符的生成。（3）声学模型

二.语音识别过程2.语音识别关键要素语言模型就是用来计算一个句子的概率的模型。它利用语言表达的特点，将音素转换成文字，组成意义明确的语句。简言之，根据声学模型输出的结果，给出最大概率的文字序列。（4）语言模型

二.语音识别过程2.语音识别关键要素解码搜索的主要任务是在由声学模型、发音词典和语言模型构成的搜索空间中寻找最佳路径，尽快将语音转换成文本。解码时需要用到声学得分和语言得分，声学得分由声学模型计算得到，语言得分由语言模型计算得到。（5）解码搜索

人工智能基础与应用Thankyouverymuch!

7-2深度神经网络模块?语音识别：让机器对你言听计从

目录CONTENTS深度神经网络基础01卷积神经网络02

一.深度神经网络基础1.深度神经网络的基本结构神经元加权和、非线性变换多层连接

二.卷积神经网络1.深度神经网络参数的复杂性如果输入层向量有106个，假设隐藏层向量数目与输入层一样，那么从输入层到隐藏层的权重参数就有1012个，这还没有考虑后面其他隐藏层的参数。这样参数就太多了，模型根本无法训练。

二.卷积神经网络2.卷积神经网络的优势在20世纪60年代，大卫·休伯尔（DavidHubel）和托斯坦·维厄瑟尔（TorstenWiesel）在研究大脑皮层中用于局部敏感和方向选择的神经元时，发现其独特的网络结构可以有效地降低反馈神经网络的复杂性。CNN的基本结构提取特征提高卷积神经网络的非线性表达能力降维、减少计算量特征转换与映射

二.卷积神经网络3.卷积操作不同形状的“X”“X”的像素矩阵3个卷积核卷积计算

二.卷积神经网络3.激活函数sigmoidtanhReLUSoftmax

二.卷积神经网络4.全连接层通过不断卷积、激活和池化，就得到了样本的多层特征图，然后将最终得到的特征图排成一列，即将多层的特征映射为一个一维的向量，形成全连接层。

人工智能基础与应用Thankyouverymuch!

7-3项目1—利用CNN识别英文语音数字模块?语音识别：让机器对你言听计从

目录CONTENTS提出问题01预备知识03解决方案02任务1—提取音频文件的语音特征数据04任务3—利用训练好的模型来识别语音06任务2—构建语音数字识别神经网络模型05

一.提出问题问题描述在医院、银行、饭店等场所，由于资源和人手受限，人们必须排队等候服务，因此叫号系统应运而

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

人工智能基础与应用（第2版）（微课版）课件模块7 语音识别：让机器对你言听计从.pptx