- 1、本文档共62页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
7-1语音识别模块?语音识别:让机器对你言听计从
目录CONTENTS语音识别简史01语音识别过程02
一.语音识别简史1.技术发展简史
一.语音识别简史1.典型语音识别产品现有的语音识别部分产品
二.语音识别过程1.语音识别技术涉及技术信号处理模式识别概率论发声机理听觉机理人工智能…众所周知,机器只能处理数字信号,不能直接处理人的语音信号。另外,人在说话的时候,语速有快有慢,每个人的声音、语调也不相同,且说话时周围可能有噪声。此外,即便字词发音相同(如“拟定”“你定”),但表达的意思还要结合语境和上下文来进一步确定。还有,机器要进行预学习,以了解人类在语言交流中要用到哪些语料库等。困难重重…
二.语音识别过程2.识别过程语音识别过程
二.语音识别过程2.语音识别关键要素(1)语音信号处理将语音转化为在时间上离散的数字信号采样后的时域数字波形
二.语音识别过程2.语音识别关键要素(2)特征提取
二.语音识别过程2.语音识别关键要素特征提取:①预加重增大高频部分的幅度。一般使用一阶滤波器来实现预加重
二.语音识别过程2.语音识别关键要素特征提取:②分帧信号中的频率会随时间变化,一些信号处理算法(如傅里叶变换)通常希望信号是稳定的,也就是说对整个信号进行处理是没有意义的,因为信号的频率轮廓会随着时间的推移而丢失。为了避免这种情况,就需要对信号进行分帧处理,以保证短时的信号是稳定的。③加窗和快速傅里叶转换在分帧之后,通常需要对每帧的信号进行加窗处理,目的是让帧两端平滑地衰减,这样可以降低后续傅里叶变换后一些小束波的强度,取得更高质量的频谱。
二.语音识别过程2.语音识别关键要素语音识别5关键要素:④提取特征在语音能量谱上应用Mel滤波器组就能提取到FBank(FilterBank)特征。所谓Mel刻度,是一个能模拟人耳接收声音的规律的刻度。各帧FBank特征值频谱图
二.语音识别过程2.语音识别关键要素声学模型用于建立声学特征与建模单元之间的映射关系,即它能利用语音的声学特征把一系列语音帧转换成若干音素。基于该模型,利用大量的语音特征向量以及它们对应的音素,可以训练从特征向量到音素的分类器,从而在识别阶段能计算每一帧的特征向量到相应音素的声学得分(概率),简而言之,实现特征到字符的生成。(3)声学模型
二.语音识别过程2.语音识别关键要素语言模型就是用来计算一个句子的概率的模型。它利用语言表达的特点,将音素转换成文字,组成意义明确的语句。简言之,根据声学模型输出的结果,给出最大概率的文字序列。(4)语言模型
二.语音识别过程2.语音识别关键要素解码搜索的主要任务是在由声学模型、发音词典和语言模型构成的搜索空间中寻找最佳路径,尽快将语音转换成文本。解码时需要用到声学得分和语言得分,声学得分由声学模型计算得到,语言得分由语言模型计算得到。(5)解码搜索
人工智能基础与应用Thankyouverymuch!
7-2深度神经网络模块?语音识别:让机器对你言听计从
目录CONTENTS深度神经网络基础01卷积神经网络02
一.深度神经网络基础1.深度神经网络的基本结构神经元加权和、非线性变换多层连接
二.卷积神经网络1.深度神经网络参数的复杂性如果输入层向量有106个,假设隐藏层向量数目与输入层一样,那么从输入层到隐藏层的权重参数就有1012个,这还没有考虑后面其他隐藏层的参数。这样参数就太多了,模型根本无法训练。
二.卷积神经网络2.卷积神经网络的优势在20世纪60年代,大卫·休伯尔(DavidHubel)和托斯坦·维厄瑟尔(TorstenWiesel)在研究大脑皮层中用于局部敏感和方向选择的神经元时,发现其独特的网络结构可以有效地降低反馈神经网络的复杂性。CNN的基本结构提取特征提高卷积神经网络的非线性表达能力降维、减少计算量特征转换与映射
二.卷积神经网络3.卷积操作不同形状的“X”“X”的像素矩阵3个卷积核卷积计算
二.卷积神经网络3.激活函数sigmoidtanhReLUSoftmax
二.卷积神经网络4.全连接层通过不断卷积、激活和池化,就得到了样本的多层特征图,然后将最终得到的特征图排成一列,即将多层的特征映射为一个一维的向量,形成全连接层。
人工智能基础与应用Thankyouverymuch!
7-3项目1—利用CNN识别英文语音数字模块?语音识别:让机器对你言听计从
目录CONTENTS提出问题01预备知识03解决方案02任务1—提取音频文件的语音特征数据04任务3—利用训练好的模型来识别语音06任务2—构建语音数字识别神经网络模型05
一.提出问题问题描述在医院、银行、饭店等场所,由于资源和人手受限,人们必须排队等候服务,因此叫号系统应运而
您可能关注的文档
- 人工智能基础与应用(第2版)(微课版)课件 模块1 人工智能:开启智慧新时代.pptx
- 人工智能基础与应用(第2版)(微课版)课件 模块2 Python:人工智能开发语言.pptx
- 人工智能基础与应用(第2版)(微课版)课件 模块3 线性回归:预测未来趋势.pptx
- 人工智能基础与应用(第2版)(微课版)课件 模块4 分门别类:帮你“分而治之”.pptx
- 人工智能基础与应用(第2版)(微课版)课件 模块5 物以类聚:发现新簇群.pptx
- 人工智能基础与应用(第2版)(微课版)课件 模块8 人脸识别:机器也认识你.pptx
- 新视野大学英语(第四版)读写教程2(思政智慧版)B2U4Section B.pptx
- E英语视听说教程3(智慧版) Unit5教学课件B3U5.pptx
- E英语视听说教程3(智慧版) Unit4教学课件B3U4(2024版).pptx
- 新视野大学英语(第四版)读写教程2(思政智慧版)B2U1 Section C.pptx
- 新视野二版听说1第6单元示范1课件.ppt
- 【参考答案】 联络口译(第二版) 《联络口译》(第二版)参考答案.pdf
- 梅大高速茶阳路段“5·1”塌方灾害调查评估报告.docx
- 虹吸雨水PE管施工节点标准做法.pdf
- 2025消防设施施工质量常见通病防治手册,典型图示+规范要求.pptx
- 新视野大学英语(第二版)读写教程 4 空军工程大学编U05B.ppt
- E英语教程2(智慧版)Unit 6.pptx
- E英语教程3(智慧版)Unit 7.ppt
- 新视野二版读写1第4单元课件Section A How to Make a Good Impression.pptx
- E英语视听说教程4(智慧版)4-U2课件(2024版)U2.pptx
最近下载
- 初二下第一次月考试卷答案.doc VIP
- 成人破伤风急诊预防及诊疗专家共识.pptx VIP
- 第10课 建设中国特色社会主义道路(课件).pptx VIP
- 完整培训手册中文ec225_ch_21_t020_thm.pdf
- 标准图集-19K112 金属、非金属风管支吊架(含抗震支吊架).pdf
- 2025年辽宁经济职业技术学院单招职业技能测试题库及完整答案1套.docx VIP
- 20231126-广发证券-美的集团-000333-ToC深化全球布局,ToB转型驱动增长.pdf
- 山东省青岛第五十八中学2025届高三上学期一模英语试卷(含答案).docx VIP
- CFA一级百题进阶:固收.doc
- 山东省济南市2025中考数学模拟(一模)试题按题型难易度分层分类汇编(14精品.pdf VIP
文档评论(0)