基于HMM算法语音识别研究.ppt

基于HMM算法语音识别研究

毕业论文答辩 题目:基于HMM算法的语音识别的研究 一、结构框架 1、研究背景 2、语音系统分类和构成 3、语音识别详细模块介绍 4、仿真与分析 5、总结与收获 语音识别是近年来十分活跃的一个研究领域。在手持式设备、智能家电、工业现场控制等应用场合,语音识别技术有着广阔的发展前景。尤其是在包括PDA、手机等掌上型嵌入式系统中,键盘的存在已经大大妨碍了系统的小型化,而语音识别技术就是一种极富潜力和最为理想的选择,具有高技术含量和广阔的市场价值。 目前主流的语音识别技术是基于统计模式识别的基本理论,国外的语音识别研究工作主要集中在非特定人、大字表、连续语音识别系统上,国内的研究大国集中于连续语音识别、语音新特征研究、动态时间弯折(DTW)算法 、隐马尔可夫模型HMM及神经网络等识别技术的研究。 2、语音系统分类和构成 1. 从说话者与识别系统的相关性分: (1)特定人语音识别系统: 仅考虑对于专人的语音进行识别,与说话的语种没有关系; (2)非特定人语音识别系统: 识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习,识别的语言取决于采用的训练语音库; (3)多人的识别系统: 通常能识别一组人的语音该系统通常要求对该组人的语音进行学习,通常可以识别三到五个人的语音。 2. 从说话的方式分: (1)孤立词语音识别系统: 输入系统要求输入每个词后要停顿; (2)连接词语音识别系统: 输入系统要求对每个词都清楚发音,开始出现连音现象; (3)连续语音识别系统: 连续语音输入自然流利的语音,会出现大量的连音和变音。 典型系统结构图 语音系统结构图 系统主要模块 语音系统主要包含以下四个模块: (1)预处理 预处理部分包括语音信号的采样、预加重、语音分帧以及端点检测等,预处理最重要的步骤是端点检测。 (2)特征提取 特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号特征的参数,如平均能量、过零数、倒谱、线性预测系数等,以便训练和识别。参数的选择直接关系着语音识别系统识别率的高低。 (3)训练 训练是建立模式库的必备过程,词表中每个词对应一个参考模式,它由这个词重复发音多遍,再经特征提取和某种训练中得到。 (4)模式匹配 模式匹配部分是整个系统的核心,也就是按照某种算法求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度,最匹配的就是识别结果。 语音系统模块分析 1、预处理模块 (1)语音信号采样 要了分析说话人的语音,就要将话筒中传来的语音信号转换成计算机所能处理的数字信号。利用采样定律,对语音信号进行采样。实验表明语音清晰度和可懂度有明显影响的成分最高频率约为5.7KHz。因此语音识别时常用的采样频率为10KHz或16KHz。 (2)预加重 它的目的在于消除低频干扰尤其是50Hz的工作频率干扰,将对语音识别更为有用的高频部分的频谱进行提升。使信号的频谱变的平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱, 以便于频谱分析。 (3)语音分帧 语音信号常常可假定为短时平稳的,即在10-20ms这样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。这种处理的基本方法是将语音信号分隔为一些短段即分帧再加以处理。一般采用交叠分段的方法,即帧与帧之间有交叠,交叠的目的是使帧与帧之间平滑过渡,保持其连续性。语音信号处理的帧长一般取20ms。、 (4)语音端点检测 语音端点检测就是从包含语音的一段信号中找出语音的起点及终点,从而只存储和处理有效语音信号。它是语音处理技术中的一个重要方面,其目标是要在一段输入信号中将语音信号同其它信号(如背景噪声)分离开来。端点检测采用传统的检测方法即将语音信号的短时能量与过零率相结合去判断起点与结束点。 2、特征参数提取模块 (1)线性预测系数(LPC) LPC是语音分析的重要手段,它能很好地进行谱估计,即可作为语音特征的参数。因此仅用12个LPC系数就能很好地表示复杂语音信号的特征,这就大大降低了信号的冗余度并有效地减少了计算量和存储量,使之成为语音识别和语音压缩的基础。 (2)线性预测倒谱系数(LPCC) 在语音识别系统中,很少直接使用LPC系数,而是由LPC系数推导出另一种参数:线性预测倒谱系数(LPCC)。倒谱实际上是一种同态信号处理方法,标准的倒谱系数计算流程需要进行FFT变换,对数操作和相位校正等步骤,运算比较复杂。。 (3)MFCC系数 MFCC参数是目前大多数语音识别系统中广泛使用的特征参数,它是基于人耳的听觉特性。人耳对声音音调的感受与其频率并不成线性关系。而Mel倒谱尺寸,则更符合人耳的听觉特性。 Mel频率尺度,它的值大体上对应于实际频率的对数分布关系。MFCC与基于

文档评论(0)

1亿VIP精品文档

相关文档