- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
语音识别原理以及模型
第一节语音识别原理语音识别,也被称为自动语音识别(AutomaticSpeechRecognition,ASR),其目标是将人类的语音转换为文字。从语音识别的应用方式来看,语音应用经常被分为离线语音识别和实时在线语音识别两大类。语音识别介绍
第一节语音识别原理声音的产生
第一节语音识别原理Phoneme(音位,音素)Grapheme(字位)Word(词)Morpheme(词素)bytes语音识别的基本单位
第一节语音识别原理语音特征处理
第一节语音识别原理预处理话音检测与断句音频场景分析识别引擎(语音识别的模型)工程调度异常处理语音识别的流程
第二节语音识别发展历史20世纪50年代。三个BellLabs的研究人员开发了一个叫做Audrey的系统用来识别数字,并且只能识别固定的某个人说的数字.语音识别历史演变
第二节语音识别发展历史20世纪80年代HMM开始崭露头角一直到21世纪,HMM在语音识别领域一直独占鳌头.语音识别历史演变
第二节语音识别发展历史1997年:长短期记忆网络LSTM。2007年:由CTC训练的长短时记忆网络开始在特定的应用上超过传统的语音识别方法。2015年:谷歌的语音识别声称通过CTC训练的长短时记忆网络,使得自己的语音识别性能戏剧性的上升了49%。2017年:微软研究者在电话录音语音识别任务中,到达了人类历史的里程碑。语音识别历史演变
通常,?语音识别过程大致分为两步:?第1步,?首先对语音信号提取特定的声学特征,?然后对声学特征进行“学习”或者说是“训练”。第2步是“识别”,?根据识别系统的类型选择能够满足要求的识别方法,?采用语音分析方法分析出这种识别方法所要求的语音特征参数,?按照一定的准则和测度与系统模型进行比较,?通过判决得出识别结果.语音识别过程第三节传统语音识别方法
语音识别过程第三节传统语音识别方法
通常,?在进行语音识别之前,?需要根据语音信号波形提取有效的声学特征.语音识别特征提取第三节传统语音识别方法
语音识别特征提取第三节传统语音识别方法
声学模型在语音特征与音素之间建立映射关系,?即给定模型后产生语音波形的概率,?其输入是语音信号经过特征提取后得到的特征向量序列。声学模型整个语音识别系统中最重要的部分,?只有学好了发音,?才能顺利和发音词典、语言模型相结合得到较好的识别性能.通常使用GMM-HMM来作为声学模型。语音识别声学模型第三节传统语音识别方法
在深度学习中,对语音识别的处理一般使用seq2seq结构的模型,而seq2seq结构有LAS、CTC、RNN-T、MoChA等。深度学习语音识别模型第四节深度学习语音识别方法
LAS模型是一个seq2seq的结构的模型。由三部分组成:1、Listen(encoder)部分可以使用多种网络结构,主要作用是进行注意力机制和过滤噪声等工作。2、Attend就是一般的Attention结构,由encoder的输出和decoder(RNN)上一时刻的输入变换后经过点乘或相加得到。3、Spell(decoder)一般是RNN(LSTM)结构,这部分可以认为是模型中的LanguageModel。LAS模型第四节深度学习语音识别方法
1.encoder端将输入数据转化为高维隐层嵌入2.Attention过程:将decoder上一时刻的输出和encoder的每个输出分别做match得到每个encoder输出的权重参数,然后对权重参数进行softmax,最后将权重参数作为权重对隐藏层参数进行加权求和得到语义变量。3.将上一步的语义变量作为decoder(RNN)当前时刻的输入传入decoder,并将decoder结果作为LAS当前时刻的输出返回。LAS模型过程第四节深度学习语音识别方法
在LAS中,常用以下技术来优化模型性能1.downsampling(下采样)2.Beamsearch3.AttentionLAS模型关键技术第四节深度学习语音识别方法
CTC(ConnectionistTemporalClassification)模型,主要用来解决输入序列和输出序列难以一一对应的问题,和LAS相比,CTC能够实现实时识别的功能。CTC模型第四节深度学习语音识别方法
CTC模型的构造方式如下:首先,模型先通过一个encoder结构将输入的token转化为一个高维隐层嵌入,然后对于每一个token的输出使用一个分类器(全连接网络)进行分类,最终的到每个token对应的预测结果。CTC模型原理第四节深度学习语音识别方法
RNN-T网络在RNA网络的基础上使每个输入token可以连续输出多个结果,当每个token
您可能关注的文档
- 深度学习案例教程 课件 第2章 PyTorch 深度学习框架.pptx
- 深度学习案例教程 课件 第3章 简单全连接网络的手写数字识别.pptx
- 深度学习案例教程 课件 第4章 使用卷积网络实现图像分类.pptx
- 深度学习案例教程 课件 第5章 目标检测.pptx
- 深度学习案例教程 课件 第6章 文本分类.pptx
- 深度学习案例教程 课件 第7章 文本翻译.pptx
- 深度学习案例教程 课件 第8章 基于深度学习的代码搜索.pptx
- 深度学习案例教程 课件 第1章 深度学习简介.pptx
- 深度学习案例教程 课件全套 钱月钟 第1--9章 深度学习简介--语音识别.pptx
- 计算机组成原理(第6版)课件 第3章 CPU子系统.pptx
- 2025年105环境学院081500水利工程报录数据分析报告(初试+复试+调剂.docx
- 软件公司文案(共7).pptx
- 2025年实习报告(采矿工程).docx
- 2025年竹缠绕复合压力管项目可行性研究报告立项模板.docx
- 2025年热动专业火电厂认识实习报告 (1).docx
- 2025年中国输变电设备市场行情动态分析及发展前景趋势预测.docx
- 2025年京抚线瓜台子村至老城段绕城新建工程环境影响报告书的批复.docx
- 2025年中国参数测试仪器行业市场专项调研及投资前景可行性预测报告.docx
- 香港市场计划书.pptx
- 2025年中国农产品冷链物流行业分析报告-市场调研与未来商机预测.docx
文档评论(0)