码本大小对矢量量化性能影响的研究.ppt

下载文档 降价啦

21
0
约2.99千字
约 12页
2021-01-04 发布于天津
举报
版权申诉
保障服务

码本大小对矢量量化性能影响的研究.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

码本大小对矢量量化性能影响的研究 —— 信息工程冯丹指导老师：简志华矢量量化的概念随着计算机和大规模集成电路的飞速发展，科技越加发达，大量的语音、图像等多媒体信息要进行存储、处理与传输 , 需要很大的存储空间和信道带宽。因此必须对数字信号进行量化压缩来提高存储效率和减小存储空间。矢量量化是 20 世纪 70 年代后期发展起来的一种极其重要的数据压缩和编码技术，广泛应用于语音编码、语音合成、语音识别和说话人识别等领域。矢量量化在量化时用输出组集合（码本）中最匹配的一组输出值（码字）来代替一组输入采样值（输入矢量），其理论基础是香农的速率失真理论，其基本原理是用码本中与输入矢量最匹配的码字的索引代替输入矢量进行传输和存储，而解码时只需简单的查表操作。国内外研究动态早在 20 世纪 50 年代就提出了矢量量化方法，后来在 50 和 60 年代被用于语音压缩编码， 70 年代后矢量量化技术应用逐渐广泛起来， 80 年代初，矢量量化技术得到迅速发展。在二十世纪六十年代初期和中期，出现了最早的矢量量化思想。 1980 年由 Linde ， Buzo 和 Gray 将聚类算法引入到矢量量化器设计中，提出了一种著名的矢量量化码书设计算法，即 LBG 算法（又称为 GLA 算法），该算法物理概念清晰 , 算法理论严密且算法容易实现， LBG 算法是矢量量化技术发展的一个甩程碑 , 从此展开了对矢量量化的理论和应用的全面研究。矢量量化在语音识别中的基本过程矢量量化在语音识别中应用时，一般是先用矢量量化的码本作为语音识别的参考模板，对输入的语音信号进行预处理，即对语音信号进行分帧即加窗。然后进行语音特征参数的提取，即 Mel 频率倒谱系数 (Mel Frequency Cepstrum Coeficient ， MFCC) 。接下来，进行最重要的步骤 -- 矢量量化的码本设计，较常应用的码本设计算法就是 LBG(Linde-Buzo-Gray) 算法。最后，计算每个码本的总平均的失真量化误差，就是语音每一帧特征矢量与码本的失真之和除以该语音的长度（帧数）。总平均失真误差最小的码本所对应的字（或词）即为识别结果。具体过程如下方框图所示：分帧、加窗提取特征参数运用 LBG 算法设计码本计算平均失真语音信号判决结果并输出一分帧、加窗在按帧进行语音分析，提取语音参数前，有一些经常使用的短时分析技术必须预先进行，如加窗和分帧处理。分帧虽然可以采用连续分段的方法，但为了使帧与帧之间平滑过渡，保持其连续性，一般要采用如下图所示的交叠分段方法。前一帧和后一帧的交叠部分称为帧移。帧移和帧长的比值一般取 0~1/2 。为了保持语音信号的短时平稳性，利用窗函数来减少由截断处理导致的 Gibbs 效应。使用最多的两种窗函数是矩形窗、汉明窗。其表达式如下：（其中 N 为帧长）矩形窗：汉明窗： 1,0 ( 1) 0, ( ) { n N n n ? ? ? ? ? ? 其他值 0.54 0.46cos[2 /( 1)],0 1 0 n= n ={ n N n N ? ? ? ? ? ? ? ，其他值（）二提取特征参数（ Mel 频率倒谱系数 MFCC ） MFCC 是在 Mel 标度频率域提取出来的倒谱参数， Mel 标度描述了人耳频率的非线性特性，它与频率的关系可用下式近似表示 : Mel （ f ） =2595*lg （ 1+f/700 ）式中 f 为频率，单位为 Hz 。 Mel 倒谱系数的提取过程如图所示：三运用 LBG 算法设计码本 LBG 算法是基于分裂技术的劳埃德迭代算法，也称 GLA 算法，该算法的主要特点是每次迭代是失真减小的 , 是一种递推算法，从一个事先选定的初始码本开始进行迭代，直到系统性能满足要求或者不再有明显的改进为止。下面给出以欧氏距离计算两个矢量畸变时的 LBG 算法的具体实现步骤： (1) 设定码本和迭代训练参数：设全部输入训练矢量 X 的集合为 S ；设置码本的尺寸为 J ；设置迭代算法的最大迭代次数为 L ；设置畸变改进阈值为 δ 。 (2) 设定初始化值：设置 J 个码字的初值；设置畸变初值 =∞ ；设置迭代次数初值 m=1 。（ 3 ）假定经过 m 次迭代根据最近邻准则将 S 分成了 J 个子集，即当 X ∈ 时，下式应成立： d （ X, ） ≤d （ X, ） ∪ i ， i≠l （ 4 ）计算总畸变 ) ： = (5) 计算畸变改进量 ? 的相对值： = =