语音信号处理 第4版 第7章 语音识别 思考题答案.docx

语音信号处理 第4版 第7章 语音识别 思考题答案.docx

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第7章语音识别思考题答案

语音识别的目的是什么?语音识别系统可以怎样进行分类?当前,语音识别的主流方法是什么?

语音识别主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。

一般语音识别系统按不同的角度有下面几种分类方法:(1)孤立词、连接词、连续语音识别系统以及语音理解和会话系统;(2)大词汇、中词汇量和小词汇量语音识别系统;(3)特定人和非特定人语音识别系统。

语音识别方法一般有模板匹配法、随机模型法和概率语法分析法三种。

为什么影响语音识别技术实用化的困难是不可低估的?实用语音识别研究中存在哪些主要问题和困难?

从语音识别的角度看,语音信号是随机的、多变的,其语法规则既复杂又不完全确定,这给获取完备的规则以及执行高效的算法都带来了极大的难度。

实用语音识别研究中仍存在如下问题和困难:(1)语音识别的一种重要应用是自然语言的识别和理解;(2)语音信息的变化很大;(3)语音的模糊性。(4)单个字母及单个词语发音时语音特性受上下文环境的影响,使相同字母有不同的语音特性。(5)环境的噪声和干扰对语音识别有严重影响。

一个实用语音识别系统应由哪几个部分组成?语音识别中常用的语音特征参数有哪些?什么是动态语音特征参数?怎样提取动态语音特征参数?

语音识别模块是语音识别系统的核心部分,其除了包括语音的声学模型以及相应的语言模型的建立、参数匹配方法、搜索算法、话者自适应算法,还包括增添新词的功能、数据库管理和友好的人机交互界面等。

识别参数可以选择下面的某一种或几种的组合:平均能量、过零数或平均过零数、频谱、共振峰、倒谱、线性预测系数、偏自相关系数、声道形状的尺寸函数,以及音长、音高、声调等超声短信息函数。此外,Mel倒谱参数也是常用的语音识别特征参数。

上述参数的时间变化反映了语音特征的动态特性就是动态语音特征参数。

提取的语音特征参数有时还要进行进一步的变换处理,如正交变换、主元素分析、最大可分性变换等,以达到进一步的压缩处理和模式可分性变换,节省模式存储容量和识别运算量,提高识别性能的目的。

给定一个输出符号序列,怎样计算HMM对于该符号序列的输出似然概率?

对于任一待识别的语音,首先将其进行预处理和特征提取,得到对应的特征矢量序列(如果选用的是离散型HMM,则需要进行矢量量化)。然后利用HMM的基本算法—前向-后向算法计算该特征矢量序列在训练好的每个孤立字(词)HMM上的输出概率。

什么是孤立字(词)语音识别?孤立字(词)语音识别有哪些有效方法?简要说明它们的工作原理。

孤立字(词)识别系统,顾名思义是识别孤立发音的字或词。

常用识别方法包括:(1)采用判别函数或准则的方法。最典型的是贝叶斯准则,它是一种概率统计的方法。(2)采用动态时间规整的方法。字音的起始点相应于路径的起始点。最优路径起点至终点的距离即为待识别语音与模板语音之间的距离,与待识语音距离最小的模板对应的字音即判为识别结果。这种方法运算量较大,但技术上较简单,识别正确率也较高。在各点的匹配中对于短时谱或倒谱参数识别系统,失真测度可以用欧氏距离;对于采用LPC参数的识别系统,失真测度可以用对数似然比距离。决策方法一般用最近邻准则。(3)采用矢量量化技术的方法。矢量量化技术在语音识别的应用方面,尤其是在孤立字(词)语音识别系统中得到了很好的应用。特别是有限状态矢量量化技术,对于语音识别更为有效。决策方法一般用最小平均失真准则。(4)采用HMM技术的方法。HMM的各状态输出概率密度函数既可以用离散概率分布函数表示;也可以用连续概率密度函数表示。一般连续隐马尔可夫模型要比离散隐马尔可夫模型计算量大,但识别正确率要高。(5)采用人工神经网络技术的方法。(6)采用混合技术的方法。为了弥补单一方法的局限性,可以采用把几种方法组合起来的办法。如用矢量量化作为第一级识别作为预处理,从而得到若干候选的识别结果,然后再用DTW或HMM方法做最后的识别。因此,混合技术包括VQ/DTW和VQ/HMM等识别方法。

为什么在语音识别时需要做时间规整?

因为语音信号具有相当大的随机性,即使是同一个人在不同时刻所讲的同一句话、发的同一个音,也不可能具有完全相同的时间长度。在进行模板匹配时,这些时间长度的变化会影响测度的估计,从而使识别率降低,因此时间伸缩处理必不可少。

为什么概率尺度的DP方法可以适用于非特定人的语音识别?在概率尺度的DP中,条件概率和状态转移概率分别应怎样求得?

概率尺度DP方法,实际上相当于把语音样本的每一帧看作一个模型状态的连续状态HMM。因为如果参考样本是Y=Y1,Y2,…,YJ,则其特征矢量的时间序列是一个马尔可夫过程,如果把每一个特征矢量看作马尔可夫过程的一个状态,同时把输入信号X=X1,X2

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档