- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第11讲语音识别技术及其应用;
RL深度学习
nlp深度学习
CV深度学习;
语音识别基础;
01chrecognition;
1、从实验室环境到实际应用场景
语音识别最基本的定义是“电脑能听懂人类说话的语句或命令,而做出相应的工作“。50多年来,该技术渐渐开始改变我们的生活和工作方式,这种趋势的出现和下面几个关键领域的进步是分不开的。
·摩尔定律持续有效。有了多核处理器、通用计算图形处理器(GeneralPurposeGraphicalProcessingUnit,GPGPU)、CPU/GPU集群等技术,这使得训练更加强大而复杂的模型变得可能。
1
·借助越来越先进的互联网和云计算,我们得到了比先前多得多的数据资源。使用从真实场景收集的大数据进行模型训练,提高了系统的可应用性。
2;
2、语音识别系统结构
语音识别系统的典型结构,语音识别系统主要由图中的四部分组成:信息处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分。;
2、语音识别系统结构
(1)语音特征抽取
原始模拟信号首先经录入器件转化为数字信号,声学特征提取部分负责从数字化后的
语音中提取声学特征信息。为保证识别准确率,该特征应该对声学模型的建模单元具有
较好的区分性。同时,为了能够高效的计算声学模型参数和进行解码识别,声学特征需
要在尽量保留语音中文本信息的前提下,抑制诸如说话人、信道、环境噪声等干扰信息,
并且维持一个适中的维度。提取良好的具有区分性的声学特征对提升语音识别系统的性
能至关重要。;
2、语音识别系统结构
(2)声学模型
关于声学模型,有两个主要问题,分别是特征向量序列的可变长和音频信号的丰富变
化性。可变化特征向量序列的问题在学术上通常由动态时间规整方法和隐马尔可夫模型
(HMM)方法来解决。音频信息的易变性是由说话人的各种复杂的特征(如性别、健康状况或
紧张程度)交织,或是说话风格与速度、环境噪声、周围人声、信道扭曲(如麦克风音的差
异)、方言差异、非母语口音引起的。一个成功的语音识别系统必须能够应付所有这类声音
的变化因素。;
2、语音识别系统结构
(3)语言学模型
语音识别系统的目的是把语音转换成文字。具体来说,是输入一段语音信号,要找一
个文字序列(由词或文字组成),使得它与语音信号的匹配程度最高。这个匹配程度一般是
用概率来表示。用学表示语音信号,表示文字序列,则要求解的是W=argmaxP(W|x)
w=agmw)(W=agmxP(xw)P(w);
2、语音识别系统结构
(3)解码
解码器(Decoder)是语音识别中的又一重要环节,为了能够识别出语音信息中所包含的文本信息,我们需要结合通过声学模型计算得到的语音特征声学概率和由语言模型计算出的语言模型概率,利用解码器通过相关搜索算法分析出最有可能性的词序列w*;;
PDA知晓移动设备上的信息,了解一些常识,
并记录了用户与系统的交互历史。有了这些
信息,PDA可以更好地服务用户。比如,可
以完成拨打电话、安排会议、回答问题和音
乐搜索等工作。;
基于深度学习的连续语音识别
Continuousspeechrecognitionbasedondeeplearning;
传统的GMM-HMM中,一般使用连续高斯混合模型刻画产生观察状态的概率密度函数。
GMM的许多优点使它很适合于在HMM的状态层面对输入数据建模。例如,在有足够多的混合
成分时,GMM能够拟合任何一种概率分布:GMM模型参数的计算可以被并行化,从而高效实
现训练。上图给出了利用GMM-HMM建模语音信号的示例,我们可以观测到语音信号中的特征
矢量,具体该某+观测特征矢量是由哪一个HMM状态产生的我们就无从知道,需要通过训练数据建模从而估计出观测值生成概率。;
(1)将声波分割成等长的语音帧,对每个语音帧提取特征(例如,梅尔频率倒谱系数)
(2)对每个语音帧的特征进行GMM训练,得到每个语音帧frame(o_i)属于每个状态的概率
…;
1、GMM-HMM模型
GMM-HMM在语音识别中应用的系统框图;
观测概率
V
不
v2-1DNN
特征帧窗口-V2
个
v
个
观测样本
在这个框架中,HMM用来描述语音信号的动态变化,而观察特征的概率则通过DNN来估计。
在给定声学观察特征的条件下,我们用DNN的每个输出节点来估计连续密度HMM的某个状态的
后验概率。除
您可能关注的文档
- AI系列培训课件-人工智能技术及应用课件第9章.pdf
- AI系列培训课件-人工智能技术及应用课件第10章.pdf
- AI系列培训课件-工智能技术及应用课件第12章.pdf
- AI系列培训课件-人工智能技术及应用课件第7章.pdf
- AI系列培训课件-人工智能技术及应用课件第7章.pptx
- AI系列培训课件-人工智能技术及应用课件第8章.pptx
- AI系列培训课件-人工智能技术及应用课件第9章.pptx
- AI系列培训课件-人工智能技术及应用课件第10章.pptx
- 贵州省贵阳市第六中学2017-2018学年高二3月月考卷B英语试题扫描版.doc
- 四川省广安眉山内江遂宁高三第三次诊断性考试文综历史试题扫描版含答案.doc
- 河南省郑州市第一中学2017-2018学年高一下学期周测物理试题(325)扫描版含答案.doc
- 山西省怀仁县第一中学2017-2018学年高二下学期第一次月考生物试题扫描版.doc
- 河南省六市高三下学期第一次联考试题(3月)理科综合扫描版含答案.doc
- 四川省高三全国Ⅲ卷冲刺演练(一)文综地理试卷扫描版含答案.doc
- 河南省洛阳市高三第二次统考文综试卷扫描版含答案.doc
- 甘肃省靖远县高三下学期第二次联考理科综合试题扫描版含答案.doc
- 问题导学法在办公场景中的实施策略及效果评估.docx
- 退休后的个人品牌打造与传播策略.docx
- 问题解决在办公流程优化中的应用.docx
- 问题导向的办公环境创新设计.docx
最近下载
- 浅谈区域品牌云展馆交互体验设计.docx VIP
- FDA-21 CFR Part 820新版医疗器械质量管理体系法规(QMSR)征求意见稿(中文)-202202.pdf
- 2025年主管护师(外科护理学)考试(专业知识)真题选题卷完整版 .pdf VIP
- 餐饮管理系统需求规格说明书.docx
- 2019-2023年福建省中考语文试题卷【文言文阅读题题解及答案解析】汇集.docx VIP
- 女装短视频运营方案.docx
- 2019-2023年福建省中考语文试题卷【文学类文本阅读题解及答案解析】汇集.docx VIP
- 2023年福建省各地中考语文模拟卷【古诗词鉴赏题解及答案解析】汇集.docx VIP
- 主管护师(外科护理)专业代码370真题相关专业知识2025年真题试卷真题.pdf VIP
- 开题报告-箱体零件的工艺规程及夹具设计.docx
文档评论(0)