数字语音处理.docx

《数字语音处理》期末大作业 姓名:关志恒 专业:电子信息科学与技术(2)班 学号:121006116 年级:2012级 辽宁大学信息学院 一、经典的数字语音信号时域处理算法有哪些,分别简述其原理? 答:1.语音信号的预处理 在对语音信号进行数字处理之前,首先要将模拟语音信号s(t) 离散化为s(n). 实际中获得数字语音的途径一般有两种,正式的和非正式的。正式的是指大公司或语音研究机构发布的被大家认可的语音数据库,非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。语音信号的频率范围通常是300~3400Hz,一般情况下取采样率为8kHz即可。本书的数字语音处理对象为语音数据文件,是已经数字化了的语音。有了语音数据文件后,对语音的预处理包括:预加重、加窗分帧等。 语音信号的预加重处理: 预加重目的:为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。可通过一阶FIR高通数字滤波器来实现: 设n时刻的语音采样值为x(n) ,经过预加重处理后的结果为: b.语音信号的加窗处理: 加窗常用的两种方法: (1)矩形窗,窗函数如右式: (2) 汉明(Hamming)窗,窗函数如下: 2.短时平均能量 定义n时刻某语音信号的短时平均能量En为: 当窗函数为矩形窗时,有 若令 En特点:En反映语音信号的幅度或能量随时间缓慢变化的规律. 窗的长短对于能否由短时能量反映语音信号的幅度变化,起着决定性影响。如果窗选得很长,En不能反映语音信号幅度变化 窗选得太窄,En将不够平滑。通常,当取样频率为10kHz时,选择窗宽度N=100~200是比较合适的。 3.短时平均幅度函数 为了克服短时能量函数计算x2 ( m ) 的缺点,定义了短时平均幅度函数: Mn与En的比较:1. Mn能较好地反映清音范围内的幅度变化; 2. Mn所能反映幅度变化的动态范围比En好; 3. Mn反映清音和浊音之间的电平差次于En。 4.短时平均过零率 在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零。单位时间内过零的次数就称为过零率。短时平均过零率的定义为: 在上式中,用1/2N 作为幅值,是考虑了对该窗口范围内的过零数取平均的意思。 实现短时平均过零率: 5.短时自相关分析 语音信号的短时自相关函数: 因为 所以 定义 那么短时自相关函数可以写成:定义 6.基于能量和过零率的语音端点检测 语音端点检测就是指从包含语音的一段信号中确定出语音的起始点和结束点。可用基于MATLAB程序实现能量与过零率的端点检测算法和两级判决法及程序实现: 第一级判决: (1)先根据语音短时能量的轮廓选取一个较高的门限T1,进行一次粗判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。 (2)根据背景噪声的平均能量确定一个较低的门限T2,并从A点往左、从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是用双门限方法根据短时能量所判定的语音段。 第二级判决: 以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两点E和F,这便是语音段的起止点。门限T3是由背景噪声的平均过零率所确定的。 注意:门限T2,T3都是由背景噪声特性确定的,因此,在进行起止点判决前,T1,T2,T3,三个门限值的确定还应当通过多次实验。 基于MATLAB程序实现能量与过零率的端点检测算法步骤如下: (1)语音信号x(n)进行分帧处理。 (2)得到语音的短时帧能量。 计算每一帧语音的过零率,得到短时帧过零率。 考察语音的平均能量设置一个较高的门限T1,用以确定语音开始,然后根据背景噪声的平均能量确定一个稍低的门限T2,用以确定第一级语音结束点。第二级判决同样根据背景噪声平均过零率ZN,设置一个门限T3,判断语音前端清音和后端尾音。 7.基音周期估值 基于短时平均幅度差函数AMDF法的基音周期估值: 对于浊音语音,在基音周期的整数倍上的幅度差值不是零,但总是很小,因此,可以通过计算短时平均幅度差函数中两相邻谷值间的距离来进行基音周期估值。这里使用修正的短时平均幅度差函数并加矩形窗,得到: AMDF函数与短时自相关函数的不同是:

文档评论(0)

1亿VIP精品文档

相关文档