语音识别中LPC特征矢量提取的研究和实现.pdfVIP

下载本文档

6
0
约2.24万字
约 11页
2017-06-03 发布于湖北
举报

语音识别中LPC特征矢量提取的研究和实现.pdf

语音识别中LPC 特征矢量提取的研究与实现 1 2 3 覃爱娜，王靖琰，崔阳 1 中南大学应用电子技术系，长沙 (410083) 2 中南大学信息与通信工程系，长沙 (410083) 3 中南大学电子信息科学与技术系，长沙 (410083) E-mail：wjycsu@163.com 摘要：本文介绍了基于统计模式匹配方法的语音识别的基本概念，介绍了线性预测编码 (LPC)特征矢量的提取，矢量量化，并对原型系统的实现方法作了阐述。关键词：语音识别 LPC 特征矢量 1．引言最近几年来，语音识别技术正在逐渐走向实用阶段。语音识别的第一步需要提取语音特征矢量。根据不同的识别任务和提取方法，有多种语音特征参数，如线性预测编码系数LPC 参数、倒谱系数CEP、Mel频域倒谱系数MFCC等等，本文讨论线性预测编码系数LPC参数 [1] 矢量的提取。 2 ．语音识别系统及其声学特征语音识别是人机通信的重要组成，计算机语音识别过程与人对语音识别处理过程基本上是一致的。基于统计模式匹配方法的语音识别系统如图1所示：图1 语音识别系统框图该方法包括几个步骤: a.特征向量提取：对输入语音进行分帧处理，提取特征向量用来定义测试模式(test pattern) 。谱分析技术包括线性预测编码技术，离散傅立叶技术方法等等。 b.训练阶段：对词汇表中的词条按其特征矢量序列通过一定的模型进行训练，结果作为模板存入模板库中。 c.识别阶段：将如数语音的特征矢量序列依次与模板库中的每一个模板进行相似度比较，将相似度最高者作为识别结果物出。其中声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征有：线性预测系数LPC ：线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干 -1- 时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS ，即可得到线性预测系数LPC 。对LPC 的计算方法有自相关法(德宾Durbin法) 、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP 、反射系数等等。倒谱系数CEP ：利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换IDFT就可得到倒谱系数。对LPC倒谱(LPCCEP)，在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。 Mel倒谱系数MFCC和感知线性预测PLP ：不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。 MFCC 的计算首先用 FFT 将时域信号转化成频域，之后对其对数能量谱用依照

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

语音识别中LPC特征矢量提取的研究和实现.pdfVIP