语音信号处理 第4版 第3章 语音信号处理的常用算法 思考题答案.docx

语音信号处理 第4版 第3章 语音信号处理的常用算法 思考题答案.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第三章语音信号处理的常用算法思考题答案

什么叫矢量量化,它在语音信号处理中有什么用途?什么叫码本、码本尺寸和码矢(或码字)?如何分配矢量量化的各项技术指标?

矢量量化是对矢量进行量化,它把矢量空间分成若干个小区域,每个小区域寻找一个代表矢量,量化时落入小区域的矢量就用这个代表矢量代替,或者叫作被量化为这个代表矢量。

在语音编码方面,在原来编码速率为2.4kbit/s的线性预测声码器基础上,将每帧的10个反射系数加以10维的矢量量化,就可使编码速率降低到800bit/s,而语音质量基本未下降;又如分段声码器,由于采用了矢量量化,可以使编码速率降低到150bit/s;在语音识别、说话人识别等方面,矢量量化研究也得到很快的发展。

矢量量化器里每个子空间的代表矢量就成为码字,所有代表矢量组成的集合称为码本,码本尺寸是该集合的大小。

根据香农信息论,矢量维数越长优度越好。显然,矢量量化的过程与标量量化相似。在标量量化时,在一维的零至无穷大值之间设置若干个量化阶梯,当某输入信号的幅度值落在某相邻的两个量化阶梯之间时,就被量化为两阶梯的中心值。与此相对应在矢量量化时,则将K维无限空间划分为J块区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。当然,矢量量化与标量量化一样,是会产生量化误差的(即量化噪声),但只要码本尺寸足够大,量化误差就会足够小。另外,合理选择码本的码字也可以降低误差,这就是码本优化的问题。

什么叫失真测度,理想的失真测度应具有什么特性?常用的有哪几种失真测度,它们都是如何定义的?各有什么用途?

失真测度(距离测度)是将输入矢量Xi用码本重构矢量Yj来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量间的相似程度。失真测度的选择的好坏将直接影响到聚类效果和量化精度,进而影响到语音信号矢量量化处理系统的性能。

主要包括线性预测失真测度和识别失真测度。当语音信号特征矢量是用线性预测方法求出的LPC系数时,为了比较用这种参数表征的矢量,不宜直接使用欧氏距离。因为仅由预测器系数的差值不能完全表征这两个语音信息的差别。此时应该直接用由这些系数所描述的信号模型的功率谱来进行比较。将矢量量化技术用于语音识别时,对失真测度还应该有其他一些考虑,如果仅仅靠功率谱作为失真比较的参数,则识别的性能将不够理想,此时可采用识别失真测度。

如何设计最佳矢量量化器?什么叫LBG算法?如何用程序加以实现?怎样设计初始码本,并用来训练码本?

选择了合适的失真测度后,就可进行矢量量化器的最佳设计。所谓最佳设计,就是从大量信号样本中训练出好的码本;从实际效果出发寻找到好的失真测度定义公式;用最少的搜索和计算失真的运算量,来实现最大可能的平均信噪比。

LBG算法的步骤如下:

矢量量化存在量化误差,通常减小量化误差的思路有哪些?对应于这些思路,有哪些具体的实现方法?

矢量量化与标量量化一样,会产生量化误差(即量化噪声),但只要码本尺寸足够大,量化误差就会足够小。另外,合理选择码本的码字也可以降低误差,这就是码本优化的问题。

什么叫马尔可夫链?什么叫隐过程?什么叫隐马尔可夫过程?为什么说语音信号可以看成隐马尔可夫过程?隐马尔可夫模型有哪些模型参数?请叙述这些参数的含义。

在较短的时间内用线性模型参数来表示,然后,再将许多线性模型在时间上串接起来,这就是马尔可夫链。

HMM是一个输出符号序列的统计模型,具有N个状态S1,S2,…,SN,它按一定的周期从一个状态转移到另一个状态,每次转移时,输出一个符号。转移到哪一个状态,转移时输出什么符号,分别由状态转移概率和转移时的输出概率来决定。因为只能观测到输出符号序列,而不能观测到状态转移序列(即模型输出符号序列时,是通过了哪些状态路径,不能知道),所以称为隐马尔可夫模型。

HMM用于语音信号建模时,是对语音信号的时间序列结构建立统计模型,它是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数(如状态序列)是不可观测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见,HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是一种较为理想的语音信号模型。

HMM可由六个模型参数来定义,具体含义见教材第33页。

给定一个输出符号序列,怎样计算HMM对于该符号序列的输出似然概率?

用前向—后向算法来计算HMM对于该符号序列的输出似然概率,具体参见教材第35-36页。

为了应用HMM,

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档