语音识别技术.pptVIP

下载本文档

36
0
约1.65千字
约 16页
2017-08-19 发布于北京
举报
版权申诉

语音识别技术.ppt

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音识别技术的前世今生语音识别之语音信号特征提取技术科大讯飞 Siri 语音识别与语音信号语音识别:能把语言和语声转换成可进行处理的信息的过程. 语音信号:冗余度很高的随机信号,必须经过特征提取才能有效地降低信号的冗余度,而语音特征的提取又是通过对语音信号的分析来获得表征语音信号的参数的. 语音识别五大问题 ⒈对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位，其次要建立一个理解语义的规则。 ⒉语音信息量大。语音模式不仅对不同的说话人不同，对同一说话人也是不同的，例如，一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。 ⒊语音的模糊性。说话者在讲话时，不同的词可能听起来是相似的。这在英语和汉语中常见。 ⒋单个字母或词、字的语音特性受上下文的影响，以致改变了重音、音调、音量和发音速度等。 ⒌环境噪声和干扰对语音识别有严重影响，致使识别率低。 LPC 基本思想：一个语音的采样能够用过去若干个语音采样的线性组合来逼近。通过使线性预测的采样在最小均方误差意义上逼近实际语音采样，可以求取一组唯一的预测系数。这里的预测系数就是线性组合中所用的加权系数。这种线性预测分析技术最早用于语音编码中，因此也常被简称为LPC。目前进行语音特征分析的最有效、最重要的方法之一是线性预测分析(LPC)法,这是由于: 1.它有效地解决了短时平稳信号的模型化问题,可把语音信号看成是由全极点模型产生的; 2.能很好地逼近共振峰,提供谱估计; 3.提供的语音信号模型参数(如基音、共振峰、谱、声道面积函数等)简洁而准确,计算量较小,便于实时处理; 4.可用于低数率传输的环境; 5.将LPC参数形成的模型参数储存起来,在语音识别中提高识别率和减少识别时间。呵呵~ 小明，今晚上有思修课呢！你去不去？？ “我去！！我不去！！” 呵呵~ 冬天：能穿多少穿多少；夏天：能穿多少穿多少。剩女产生的原因有两个：? 一是谁都看不上，??? 二是谁都看不上。呵呵~ To Two Too LPC的基本概念是: 语音的每个样值均可由过去若干个样值的线性组合来逼近,同时可采用使实际语音抽样与线性预测抽样之间的均方差最小的方式,来解出一组预测的系数。 LPC系数算出后,就可以直接进行倒谱系数C(k)的计算, 语音信号特征的提取如图所示,主要包括A/D转换、端点检测、预加重、加窗、自相关序列、LPC系数、倒谱系数计算等等. AD转换就是模数转换,就是把模拟信号转换成数字信号。端点检测就是从包含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音号,它是语音处理技术中的一个重要方面。预加重是一阶网络,用来对语音信号进行高频提升,可由软件来实现。预加重的作用加窗是为了进行短时分析必须加窗,这在理论上应使用两端具有平滑过渡特性的窗口,如汉明窗口,以减小在信号两端处的预测误差,并避免频谱出现“破碎”现象。预加重的作用 A.将高频提升,语音中只剩下声道部分的影响,所提取的特征更加符合原声道的模型 B.由于语音信号基本上可以看成是一个随着频率的增高而频谱包络逐渐衰减的信号,因此预加重正好使这个频谱包络变得平坦,并相应地加快了LPC系数的收敛速度。返回结论根据以上提取和分析的过程,可以得出以下结论: (1)在语音特征的提取中,预加重和汉明窗两部分是必不可少的,其参数的选取关系决定了提取语音特征的正确与否; (2)LPC是语音分析的重要手段,因LPC系数能很好地进行谱估计,即可作为语音特征的参数,因此仅用12个LPC系数就能很好地表示复杂语音信号的特征,这就大大降低了信号的冗余度,并有效地减少了计算量和存储量,使之成为语音识别和语音压缩的基础; (3)倒谱也是语音的特征参数,是研究系统特性的有效数据,在实际运作中大多数语音识别系统都会采用倒谱参数来作为有关距离的度量。