码本大小对矢量量化性能影响的研究.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
码本大小对矢量量化性能影响的研究 —— 信息工程 冯丹 指导老师:简志华 矢量量化的概念 随着计算机和大规模集成电路的飞速发展,科技越加 发达,大量的语音、图像等多媒体信息要进行存储、处理 与传输 , 需要很大的存储空间和信道带宽。因此必须对数 字信号进行量化压缩来提高存储效率和减小存储空间。矢 量量化是 20 世纪 70 年代后期发展起来的一种极其重要的数 据压缩和编码技术,广泛应用于语音编码、语音合成、语 音识别和说话人识别等领域。矢量量化在量化时用输出组 集合(码本)中最匹配的一组输出值(码字)来代替一组 输入采样值(输入矢量),其理论基础是香农的速率失真 理论,其基本原理是用码本中与输入矢量最匹配的码字的 索引代替输入矢量进行传输和存储,而解码时只需简单的 查表操作。 国内外研究动态 早在 20 世纪 50 年代就提出了矢量量化方法,后来在 50 和 60 年代被用于语音压缩编码, 70 年代后矢量量化技术应 用逐渐广泛起来, 80 年代初,矢量量化技术得到迅速发展。 在二十世纪六十年代初期和中期,出现了最早的矢量量化 思想。 1980 年由 Linde , Buzo 和 Gray 将聚类算法引入到矢 量量化器设计中,提出了一种著名的矢量量化码书设计算 法,即 LBG 算法(又称为 GLA 算法),该算法物理概念清 晰 , 算法理论严密且算法容易实现, LBG 算法是矢量量化 技术发展的一个甩程碑 , 从此展开了对矢量量化的理论和 应用的全面研究。 矢量量化在语音识别中的 基本过程 矢量量化在语音识别中应用时,一般是先用矢量量化 的码本作为语音识别的参考模板,对输入的语音信号进行 预处理,即对语音信号进行分帧即加窗。然后进行语音特 征参数的提取,即 Mel 频率倒谱系数 (Mel Frequency Cepstrum Coeficient , MFCC) 。接下来,进行最重要的步 骤 -- 矢量量化的码本设计,较常应用的码本设计算法就是 LBG(Linde-Buzo-Gray) 算法。最后,计算每个码本的总平 均的失真量化误差,就是语音每一帧特征矢量与码本的失 真之和除以该语音的长度(帧数)。总平均失真误差最小 的码本所对应的字(或词)即为识别结果。具体过程如下 方框图所示 : 分帧、加窗 提取特征参 数 运用 LBG 算法设计 码本 计算平均失真 语音信号 判决结果并 输出 一 分帧、加窗 在按帧进行语音分析,提取语音参数前,有一些经常使 用的短时分析技术必须预先进行,如加窗和分帧处理。分 帧虽然可以采用连续分段的方法,但为了使帧与帧之间平 滑过渡,保持其连续性,一般要采用如下图所示的交叠分 段方法。前一帧和后一帧的交叠部分称为帧移。帧移和帧 长的比值一般取 0~1/2 。 为了保持语音信号的短时平稳性,利用窗函数来减 少由截断处理导致的 Gibbs 效应。使用最多的两种窗函 数是矩形窗、汉明窗。其表达式如下:(其中 N 为帧长) 矩形窗: 汉明窗: 1,0 ( 1) 0, ( ) { n N n n ? ? ? ? ? ? 其他值 0.54 0.46cos[2 /( 1)],0 1 0 n= n ={ n N n N ? ? ? ? ? ? ? , 其他值 ( ) 二 提取特征参数( Mel 频率倒谱系数 MFCC ) MFCC 是在 Mel 标度频率域提取出来的倒谱参数, Mel 标 度描述了人耳频率的非线性特性,它与频率的关系可用下 式近似表示 : Mel ( f ) =2595*lg ( 1+f/700 ) 式中 f 为频率, 单位为 Hz 。 Mel 倒谱系数的提取过程如图所示: 三 运用 LBG 算法设计码本 LBG 算法是基于分裂技术的劳埃德迭代算法,也称 GLA 算法,该算法的主要特点是每次迭代是失真减小的 , 是一种 递推算法,从一个事先选定的初始码本开始进行迭代,直到系统性能满足要求或者不再有明显的改进为止。下 面给出以欧氏距离计算两个矢量畸变时的 LBG 算法的具体实现步骤: (1) 设定码本和迭代训练参数:设全部输入训练矢量 X 的集合为 S ;设置码本的尺寸为 J ;设置迭代算法的最大迭代 次数为 L ;设置畸变改进阈值为 δ 。 (2) 设定初始化值:设置 J 个码字的初值 ;设置畸变初值 =∞ ;设置迭代次数初值 m=1 。 ( 3 )假定经过 m 次迭代根据最近邻准则将 S 分成了 J 个子集 ,即当 X ∈ 时,下式应成立: d ( X, ) ≤d ( X, ) ∪ i , i≠l ( 4 ) 计算总畸变 ) : = (5) 计算畸变改进量 ? 的相对值 : = =

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档