- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
语音识别
——声学模型的CTC算法AI小组吴宏和2019-01-16
目录语音识别语音识别发展语音识别的基本架构基于深度学习的语音识别CTC(连接时序分类)算法实验效果TODO互动
语音识别语音识别(SpeechRecognition)技术,目标是以计算机自动将人类的语音内容转换为相应的文字。
语音识别发展
语音识别发展时间方法主要功能主要局限1950年单一模型匹配只能识别有限的词汇或数字识别的不是句子也不是词汇1970年模式和特征分析能识别少量的声音能识别句子,但准确度很低1980-2000年统计方法(GMM-HMM)能连续处理特定词汇,因此识别准确度更高,2001年达到80%准确度起初系统运行慢,但90年代微处理芯片的发展,系统速度加快并首次投入商业应用2010年深度神经网络采用深度神经网络来训练模型,精度明显提升,2017年6月Google达到95%精度需要大量训练数据,在噪音大、远场识别等场景下的识别精度还在攻克中
语音识别基本架构
语音识别基本架构
语音识别基本架构两个模型声学模型:对发声的建模,它能够把语音输入转换成声学表示的输出,即给出语音属于某个声学符号的概率。语言模型:简单说即消解多音字的问题。在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列。
基于深度学习的语音识别深度学习(DeepLearning,DL)是指利用多层的非线性信号和信息处理技术,通过有监督或者无监督的方法,进行信号转换、特征提取以及模式分类等任务的机器学习类方法的总称。
基于深度学习的语音识别DNN适合语音识别,主要有如下几个特点(对比GMM高斯混合模型):DNN可以将相邻的语音帧拼接起来作为输入特征,使得更长时的结构信息得以描述DNN的输入特征可以是多种特征的融合,也可以是离散或者连续的特征DNN不需要对语音数据分布进行假设
基于深度学习的语音识别主要的DNN算法:RNN(循环神经网络)CNN(卷积神经网络)LSTM(长短时记忆网络)FSMN(前馈型序列记忆网络)DFCNN(全序列卷积神经网络)...
CTCCTC(ConnectionistTemporalClassification,连接时序分类)一种端到端的深度神经网络工具,其特点是让网络自动学会对齐。
CTC语音识别需大量的音频数据集和对应的转录,而转录中的字符和音频中的音素对齐需要非常繁琐耗时的工作。主要有3个难点(X代表音频序列,Y代表语音对应的转录文本):X和Y的长度是可变化的X和Y的长度比例也是可变化的X和Y没有严格对齐
CTCCTC算法刚好能解决这些问题,给定一个X,它能基于所有可能是准确映射的Y给出输出分布。根据这个分布,我们可以推理最可能的输出,或计算分布内各字符的可能性概率。
基于CTC的语音识别训练流程特征提取切片DNN输出特征矩阵CTCLoss计算解决的问题语音与文本的对齐基于字典的解码
网络结构
特征提取将原始的wav语?信号通过分帧加窗/傅?叶变换的操作转换为神经?络需要的?维频谱图像信号,即语谱图。
切片将语谱图以定?时间切?,如20ms每个切?的取值:CTC空字符字符集(如汉语拼?,或英?的26个字?)
切片
DNN输出特征矩阵
CTC-Loss
CTC解码最优路径解码Beam-Search解码WordBeamSearch解码
最优路径解码
Beam-Search解码
WordBeamSearch解码流程对单词词典构建一棵前缀树CTC解码时基于前缀树进行受限解码
实验效果指令识别的正确率从45.0%提升至88.3%。模型训练的语料不足200小时使用CTC根据词典进行动态解码示例给{人名}加{多少}分
TODO语言模型长语音识别
互动
分组讨论哪些场景下使用语音识别功能,比较有趣?
谢谢
您可能关注的文档
- 【课件设计】不同国家的人口问题地理.ppt
- 甲硝唑片的质量检验.ppt
- 废墟段落翻译.pptx
- 九年级化学原子的构成.pptx
- 微众银行开拓互联网与普惠金融的连接大桥.pptx
- 中国互联网创业集聚特征与区位因素.pptx
- 教培机构校长培训:一个完整营销方案的撰写技巧.pptx
- 两重进位方式的ALU工作原理32位.ppt
- 计算机进制转换.ppt
- 互联网的发展前景.pptx
- 全国青少年(毒品预防教育)知识考试题库与答案 .pdf
- 2023年山东胶州市领军计划自主招生历史试题真题(含答案详解) .pdf
- 【人教版八年级生物】第六单元 第二章 认识生物的多样性 .pdf
- 冀人版-第三单元 电(提升卷)-四年级科学上册单元培优进阶练.docx
- 新郑市事业单位统考真题 .pdf
- 冀人版-第三单元动物的生长与繁殖(单元测试)四年级下册科学.docx
- CLCN4基因变异相关癫痫的临床表型及基因变异特点 .pdf
- 【《“双减”背景下小学中年级语文自主阅读策略探究》6500字】 .pdf
- 高一语文开学第一课+课件+2024-2025学年统编版高中语文必修上册 .pdf
- 密山市事业单位统考真题 .pdf
文档评论(0)