机器学习原理与应用 课件 第8、9章 语音识别;AI云开发平台.pptx

机器学习原理与应用 课件 第8、9章 语音识别;AI云开发平台.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

机器学习原理与应用

第8章语音识别

本章学习目标(知识要点)掌握语音识别的方法和技术熟悉语音信号预处理、分析、数据特征提取处理方法;掌握DTW、HMM、GMM、DNN-HMM、端到端学习等典型算法及应用;

目录语音识别技术简介常用工具及平台语音数据特征处理典型算法在线语音识别8.48.5综合案例:基于端到端的中文语音识别8.6

语音识别技术简介8.1

8.1语音识别技术简介语音识别又称自动语音识别(ASR,AutomaticSpeechRecognition),或语音转为文本(SpeechtoText,STT),或电脑语音识别(ComputerSpeechRecgnition),是一项将人类语言内容转换为机器可读格式的技术。语音识别解决的主要问题如何让机器听懂的问题,根据每个对象的语音转换为正确的文本面临的挑战声学环境、讲话风格、口音/方言、说话对象的语言识别等。

8.1语音识别技术简介1.语音识别技术的发展语音识别技术的发展大致可分为三个阶段,分别为早期阶段(1980年前)、发展阶段(1980-2010)、快速应用阶段(2010之后)。早期阶段:其研究主要是围绕模仿人类说话展开。1937年HomerDudley发明的声码合成器VODER1952年Bell实验室第一个推出的命名为Audrey的语音识别设备1960年IBM公司的可以简单识别数字和数学符号的Shoebox及日本京都大学发明的可以分隔系列口语声音的识别器1970年卡耐基梅隆大学推出的HARPY语音识别系统1980年IBM开发应用在试验转录系统Tangora中的语音转文本的工具

8.1语音识别技术简介1.语音识别技术的发展发展阶段卡耐基梅隆大学的Sphinx系统、BBN的BYBLOS系统、SRI的DECIPHER系统等。1992年美国电话电报公司(ATT)引入Bell实验室的语音识别呼叫处理系统(VRCP)FSM库、GRM库、HMIHY系统语音识别研究也由直接模式识别(基于模版的)范式转为统计模型框架其技术发展经历了从早期小规模→中规模→大规模→超大规模的量级变化研究方法从基于声学语音学的孤立字识别→基于模版的孤立词、连接数字、连续语言识别→基于统计的连续语音识别→基于句法及语义的连续语音识别→基于语义及多模态对话的多模态识别

8.1语音识别技术简介1.语音识别技术的发展语音识别技术早期和发展阶段

8.1语音识别技术简介1.语音识别技术的发展快速应用阶段在2010年之后,出现了RNNs、LSTM、神经网络声学模型、隐马尔可夫混合模型、多语言深度神经网络SHL-MDNN、DNN-HMM混合模型、CTC模型(ConnectionistTemporalClassification)、基于注意力的编码器-解码器(Attention-basedEncoder-Decoder,AED)、RNN-T(RNNTransducer)等模型。目前,语音识别技术已经广泛应用在云平台、移动设备等平台,语音业务也实现了在云端平台处理和移动端的处理,如谷歌公司的VoiceFilter-Lite、云知声、讯飞听见、百度智能云语音等。同时在智能语音助手、智能音箱、智能手机、智能可穿戴、翻译机、智能车载等设备上已广泛应用。

8.1语音识别技术简介2.语音识别过程和系统语音识别过程是把语音信号转化为机器可读文本的过程步骤语音信号输入(采集)预处理语音特征提取语音分类和语音识别在语音信号采集输入后,预处理步骤通常会过滤语音信号,去除不需要的噪音,或对信道失真语音进行增强,并辨析确定词的开始、结束分隔位置,然后转换为特征向量,进行特征提取,接着把特征向量输入声学模型,声学模型打分,根据进行语音分类和识别。语音识别过程

8.1语音识别技术简介2.语音识别过程和系统一个完整的语音识别系统架构通常会包含四个模块,分别为:语音信号处理提取模块(把语音信号处理和特征提取作为一个模块)声学模型模块语言模型模块解码搜索模块语音信号输入(采集)常用的声学特征处理方法有线性预测系数(LinearPredictiveCoefficient,LPC)、倒谱系数、梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCCs)和感知线性预测(PerceptualLinearPredictive,PLP)等声学模型模块结合声学和发音辅助知识,以提取的特征为模型输入,输出声学模型评分。语言模型以转化的文本为输入,学习词之间关系,输出词序列的评分。解码搜索模块综合声学模型评分和语言模型评分,最后输出识别结果。

8.1

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档