语音信号处理第4版第3章语音信号处理的常用算法思考题答案.docx

下载文档

0
0
约4.15千字
约 6页
2024-10-18 发布于山东
举报
版权申诉
保障服务

语音信号处理第4版第3章语音信号处理的常用算法思考题答案.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第三章语音信号处理的常用算法思考题答案

什么叫矢量量化，它在语音信号处理中有什么用途？什么叫码本、码本尺寸和码矢（或码字）？如何分配矢量量化的各项技术指标？

矢量量化是对矢量进行量化，它把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替，或者叫作被量化为这个代表矢量。

在语音编码方面，在原来编码速率为2.4kbit/s的线性预测声码器基础上，将每帧的10个反射系数加以10维的矢量量化，就可使编码速率降低到800bit/s，而语音质量基本未下降；又如分段声码器，由于采用了矢量量化，可以使编码速率降低到150bit/s；在语音识别、说话人识别等方面，矢量量化研究也得到很快的发展。

矢量量化器里每个子空间的代表矢量就成为码字，所有代表矢量组成的集合称为码本，码本尺寸是该集合的大小。

根据香农信息论，矢量维数越长优度越好。显然，矢量量化的过程与标量量化相似。在标量量化时，在一维的零至无穷大值之间设置若干个量化阶梯，当某输入信号的幅度值落在某相邻的两个量化阶梯之间时，就被量化为两阶梯的中心值。与此相对应在矢量量化时，则将K维无限空间划分为J块区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。当然，矢量量化与标量量化一样，是会产生量化误差的（即量化噪声），但只要码本尺寸足够大，量化误差就会足够小。另外，合理选择码本的码字也可以降低误差，这就是码本优化的问题。

什么叫失真测度，理想的失真测度应具有什么特性？常用的有哪几种失真测度，它们都是如何定义的？各有什么用途？

失真测度（距离测度）是将输入矢量Xi用码本重构矢量Yj来表征时所产生的误差或失真的度量方法，它可以描述两个或多个模型矢量间的相似程度。失真测度的选择的好坏将直接影响到聚类效果和量化精度，进而影响到语音信号矢量量化处理系统的性能。

主要包括线性预测失真测度和识别失真测度。当语音信号特征矢量是用线性预测方法求出的LPC系数时，为了比较用这种参数表征的矢量，不宜直接使用欧氏距离。因为仅由预测器系数的差值不能完全表征这两个语音信息的差别。此时应该直接用由这些系数所描述的信号模型的功率谱来进行比较。将矢量量化技术用于语音识别时，对失真测度还应该有其他一些考虑，如果仅仅靠功率谱作为失真比较的参数，则识别的性能将不够理想，此时可采用识别失真测度。

如何设计最佳矢量量化器？什么叫LBG算法？如何用程序加以实现？怎样设计初始码本，并用来训练码本？

选择了合适的失真测度后，就可进行矢量量化器的最佳设计。所谓最佳设计，就是从大量信号样本中训练出好的码本；从实际效果出发寻找到好的失真测度定义公式；用最少的搜索和计算失真的运算量，来实现最大可能的平均信噪比。

LBG算法的步骤如下：

矢量量化存在量化误差，通常减小量化误差的思路有哪些？对应于这些思路，有哪些具体的实现方法？

矢量量化与标量量化一样，会产生量化误差（即量化噪声），但只要码本尺寸足够大，量化误差就会足够小。另外，合理选择码本的码字也可以降低误差，这就是码本优化的问题。

什么叫马尔可夫链？什么叫隐过程？什么叫隐马尔可夫过程？为什么说语音信号可以看成隐马尔可夫过程？隐马尔可夫模型有哪些模型参数？请叙述这些参数的含义。

在较短的时间内用线性模型参数来表示，然后，再将许多线性模型在时间上串接起来，这就是马尔可夫链。

HMM是一个输出符号序列的统计模型，具有N个状态S1,S2,…,SN，它按一定的周期从一个状态转移到另一个状态，每次转移时，输出一个符号。转移到哪一个状态，转移时输出什么符号，分别由状态转移概率和转移时的输出概率来决定。因为只能观测到输出符号序列，而不能观测到状态转移序列（即模型输出符号序列时，是通过了哪些状态路径，不能知道），所以称为隐马尔可夫模型。

HMM用于语音信号建模时，是对语音信号的时间序列结构建立统计模型，它是数学上的双重随机过程：一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov链的每一状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数（如状态序列）是不可观测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要（不可观测的状态）发出的音素的参数流。可见，HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性，是一种较为理想的语音信号模型。

HMM可由六个模型参数来定义，具体含义见教材第33页。

给定一个输出符号序列，怎样计算HMM对于该符号序列的输出似然概率？

用前向—后向算法来计算HMM对于该符号序列的输出似然概率，具体参见教材第35-36页。

为了应用HMM，

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

语音信号处理第4版第3章语音信号处理的常用算法思考题答案.docx