IP电话介绍讲义.ppt

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 六、附录:相关的技术 倒谱 (Cepstrum)的概念 DTW (Dynamic Time Warping)算法 VQ (Vector Quantization)的基本原理 HIMM (Hidden Markov Models)简介 * * 附录1:倒谱的概念 “倒频谱(Cepstrum)”的概念 Cepstrum是一个新造词,它是Spectrum的前四个字母的逆序。 语音信号 x(n) 是一个非线性信号,可视为声源信号 g(n) 与声道脉冲响应信号 v(n) 的卷积, 如果要将 g(n) 和 v(n) 进行分离的话,利用同态滤波可以将卷积关系转换为求和关系(线性) 先对语音信号的频谱作离散傅里叶变换,将语音信号的频谱 X(K)视为声源信号频谱 G(K) 与声道脉冲响应信号频谱 V(K) 的乘积,有 两边取对数,转换为“和”的形式。再对语音信号的频谱进行离散傅里叶逆变换回到时域,得 * * 倒谱的概念(Cond.) 称 为 x(n) 的复对数倒频谱,简称为复倒谱 在大多数信号处理中,X(z), 的收敛域均包含单位园,设 则有关系 又设 ,则有复倒谱 如果只考虑 的实部,令 ,称 c(n)为倒频谱,简称为倒谱 * * 附录2:DTW算法 动态时间规整(DTW, Dynamic Time Warping) 假定一个孤立字(词)语音识别系统,利用模板匹配法进行识别。这时一般是把整个单词作为识别单元。在训练阶段,用户将词汇表中的每一个词依次说一遍,并且将其特征矢量时间序列作为模板(Template)存人模板库;在识别阶段,将输入语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。 然而,实际上不能简单地将输入参数序列和相应的参考模板直接作比较,因为语音信号具有相当大的随机性,即使是同一个人在不同时刻所讲的同一句话、发的同一个音,也不可能具有完全相同的时间长度。在进行模板匹配时,这些时间长度的变化会影响调度的估计,从而使识别率降低,因此时间伸缩处理是必不可少的。 日本学者板仓(Itakura)将动态规划(DP)算法的概念用于解决孤立词识别时的说话速度不均匀的难题,提出了著名的动态时间伸缩算法(DTW, Dynamic Time Warping),它是把时间规整和距离测度计算结合起来的一种非线性规正技术。 * * DTW 算法 (cond.) 设:测试语音参数共有 I 帧矢量,而参考模板共有 J 帧矢量,且I ≠J,则动态时间规整就是要寻找一个时间规整函数 j=ω( i )。它将测试矢量的时间轴 i 非线性地映射到模板的时间轴 j上,并使该函数 ω 满足 式中,d[ T(i), R(ω(i)) ]表示第 i 帧测试矢量 T(i) 和第 j 帧模板矢量R(j) 之间的距离测度,D 是处于最优状态下两矢量的距离 由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的两矢量匹配是累积距离最小的规整函数,这就保证了它们之间存在最大的声学相似特性。 * * DTW 算法 (cond.) 动态时间规整示意图 动态规划算法 搜索方法 * * 附录3:VQ的基本原理 VQ (Vector Quantization)的基本原理 将若干个标量数据组成一个矢量(或者是从一帧语音数据中提取的特征矢量)在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量,这是仙农信息论中“率——失真理论”在信源编码中的重要运用。矢量量化有效地应用了矢量中各元素之间的相关性,因此可以比标量量化有更好的压缩效果。 设有 N 个 K 维特征矢量 X = {X1, X2, …, Xk} (X 在 K维欧几里德空间 RK中),其中第 i 个矢量可记为 Xi = {x1, x2, …, xK},i = 1, 2, …, N。它可以被看作是语音信号中某帧参数组成的矢量。 把 K 维欧几里德空间 RK 无遗漏地划分成 J 个互不相交的子空间R1, R2, …, RJ,满足 这些子空间称之为Voronoi图的单元(cell),在每一个单元中找出一个代表矢量 Yj,有 Y =

文档评论(0)

1亿VIP精品文档

相关文档