- 6
- 0
- 约2.24万字
- 约 11页
- 2017-06-03 发布于湖北
- 举报
语音识别中LPC 特征矢量提取的研究与实现
1 2 3
覃爱娜 ,王靖琰 ,崔阳
1 中南大学应用电子技术系,长沙 (410083)
2 中南大学信息与通信工程系,长沙 (410083)
3 中南大学电子信息科学与技术系,长沙 (410083)
E-mail:wjycsu@163.com
摘 要:本文介绍了基于统计模式匹配方法的语音识别的基本概念,介绍了线性预测编码
(LPC)特征矢量的提取,矢量量化,并对原型系统的实现方法作了阐述。
关键词:语音识别 LPC 特征矢量
1.引言
最近几年来,语音识别技术正在逐渐走向实用阶段。语音识别的第一步需要提取语音特
征矢量。根据不同 的识别任务和提取方法,有多种语音特征参数,如线性预测编码系数LPC
参数、倒谱系数CEP、Mel频域倒谱系数MFCC等等,本文讨论线性预测编码系数LPC参数
[1]
矢量的提取 。
2 .语音识别系统及其声学特征
语音识别是人机通信的重要组成,计算机语音识别过程与人对语音识别处理过程基本上
是一致的。基于统计模式匹配方法的语音识别系统如图1所示:
图1 语音识别系统框图
该方法包括几个步骤:
a.特征向量提取:对输入语音进行分帧处理,提取特征向量用来定义测试模式(test
pattern) 。谱分析技术包括线性预测编码技术,离散傅立叶技术方法等等。
b.训练阶段:对词汇表中的词条按其特征矢量序列通过一定的模型进行训练,结果作为
模板存入模板库中。
c.识别阶段:将如数语音的特征矢量序列依次与模板库中的每一个模板进行相似度比
较,将相似度最高者作为识别结果物出。
其中声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息
大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音
信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认
为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进
行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征有:
线性预测系数LPC :线性预测分析从人的发声机理入手,通过对声道的短管级联模型的
研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干
-1-
时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差
最小LMS ,即可得到线性预测系数LPC 。对LPC 的计算方法有自相关法(德宾Durbin法) 、协
方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测
参数模型类似的声学特征还有线谱对LSP 、反射系数等等。
倒谱系数CEP :利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求
反变换IDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,
可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。
Mel倒谱系数MFCC和感知线性预测PLP :不同于LPC等通过对人的发声机理的研究而得
到的声学特征,Mel倒谱系数MFCC和感知线性预测PLP是受人的听觉系统研究成果推动而
导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能
听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音
调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是
对这一临界带宽的度量方法之一。
MFCC 的计算首先用 FFT 将时域信号转化成频域,之后对其对数能量谱用依照
您可能关注的文档
最近下载
- 2025至2030中国有机冷冻蔬菜业行业项目调研及市场前景预测评估报告.docx
- 光宝ISA-7X标准泛用型伺服系统技术手册.pdf
- 大型羊场及配套沼气建设项目可行性研究报告书.doc VIP
- 2022-2023学年八年级英语下学期期末考点大串讲(牛津译林版):八年级英语下学期期末考试02(宿迁卷).pdf VIP
- 高中英语必背3500单词表(完整版).pdf VIP
- 催收评分技术及其在个人信贷催收管理中的应用.pdf VIP
- 土木工程测量-岳建平第1章绪论资料.ppt VIP
- 电磁场仿真软件:CST Microwave Studio二次开发_(6).材料属性设置.docx VIP
- 浙江省金华市十校联考2025-2026学年第一学期期末质量检测高一英语试题含答案.pdf
- 电磁仿真软件:CST Microwave Studio二次开发_(8).高级脚本应用:电磁建模与求解.docx VIP
原创力文档

文档评论(0)