第六章 语音识别(speech recognition) 语音信号处理 课件培训讲解.ppt

第六章 语音识别(speech recognition) 语音信号处理 课件培训讲解.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第六章 语音识别(speech recognition) 语音信号处理 课件培训讲解.ppt

第六章 语音识别(speech recognition);§6.1 语音识别技术的一般概念;一、语音识别的定义;二、语音识别的应用; 1. 语音打字机:用口述代替键盘来实现向计算机输入文字和服务。 2. 数据库检索:对庞大的数据进行繁杂的检索和查询,通过使用语音识别技术,将变得轻松、方便。 3. 特殊的环境所需的语音命令:用语音发出操作指令。; 德国西门子公司推出的一种新洗衣机,洗衣物非常专业,知道为什么样的脏衣物选择合适洗涤程序和洗涤剂,而主人只需要口头命令即可,比如 “半个小时后再洗”。 与普通洗衣机的不同之处是安装了语音识别芯片,能根据用户的语音指令确定洗涤程序。 ;语音识别科技走入人类未来生活   下班回家,你踏入家门。   “开灯!”   灯很听话,自动亮了。   “开冷气!”   冷气听话,启动了。   你想到即将准备晚餐???“开厨房的灯!”   厨房的灯,也很听话。 ;三、语音识别的类型;2.根据识别的词汇量来分,有: (1)大词汇(1000个以上的词汇,如会议系统) (2)中词汇(20~1000个词汇,如定票系统) (3)小词汇(1~20个词汇,如语音电话拨号);四、语音识别的方法;; 由于语音有较大的随机性,即使同一个人在不同时刻的同一句话发的同一个音,也不可能具有完全相同的时间长度,因此时间伸缩处理是必不可少的。 DTW用满足一定条件的时间规整函数,描述待识别模式和参考模板的时间对应关系,求解两个模板匹配,就是累积距离测度最小对应的规整函数。;2.随机模型法 采用HMM模型,使用概率参数来进行估计和判决。;A2; 句法层:每个句子由若干字构成,每个字都选自于字库。 字层:每个字由音子串接而成,需要一个数据库来描述每一个字如何用音子串接的。 语音层:每个音子用一个HMM模型及其相应的参数来描述(状态及其状态间的转移)。 声学层:提取语音帧特征矢量。;1.对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则。 2.语音信息量大。语音模式不仅对不同的说话人不同,对同一说话人也是不同的,例如,一个说话人在随意说话和认真说话时的语音信息时不同的。一个人的说话方式随着时间变化。;3.语音的模糊性。说话者在讲话时,不同的词可能听起来是相似的。这在英语和汉语中常见。 4.单个字母或词、字的语音特性受上下文的影响,以致改变了重音、音调、音量和发音速度等。 5.环境噪声和干扰对语音识别有严重影响,致使识别率低。;语音识别的一些问题;§6.2 语音识别原理和识别系统的组成;1.根据识别系统的类型选择能满足要求的一种识别方法,采用语音分析技术预先分析出这种方法所要求的语音特征参数,这些语音参数作为标准模式由计算机存储起来,形成标准模式库,称为模板。这个过程称为“学习”和“训练”。在某些识别系统中,还备有专家知识库,其中存放由语言学家的各种知识,如同音字判决规则、语法规则、语义规则等。;; 语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测。;; 特征参数和识别方法有关系,是语音识别的关键之处,选择的好坏直接影响语音识别的精度。 语音特征参数包括:短时平均能量、短时过零率、频谱、三个共振峰频率(F1、F2、F3的频率值、带宽、幅值)、线性预测系数、LPC倒谱和Mel倒谱等。; 将未知语音的特征参数与模板参数逐一进行比较与匹配,判决的依据是失真测度最小的准则。 语音识别的测度有很多,欧氏距离测度及其变形、线性预测失真测度等。;欧氏距离测度;;码字(K=6,Y); 先对系统中的每个字,做一个码本作为该字的参考(标准)模板,共有M个字,故共有M个码本,组成一个模板库。 识别时,对于任意输入的语音特征矢量序列X={X1 , X2 , … , XN},计算该序列中每一个特征矢量对模板库中的每个码本的总平均失真量误差,找出最小的失真误差对应的码本(代表一个字),将对应的字输出作为识别的结果。;特征矢量序列 X={X1 , X2 , …… , XN} 模板库 Y1 , Y2 , …… , YM;{X1 , X2 , … , XN}; 用来存储各种语言学知识,如汉语声调变调规则、音长分布规则、同音字判别规则、构词规则、语法规则、语义规则等。对于不同的语言有不同的语言学专家知识库。 ;§6.3 动态时间规整;一、动态时间规整的提出;{X1 , X2 , … , XN};二、动态时间规整的定义;三、动态时间规整的原理描述; DTW 是把时间规整和距离测度计算结合起来。测试语音参数共有I帧矢量,

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档