南邮通达语音时频参数的提取和应用和语音编码实验.doc

南邮通达语音时频参数的提取和应用和语音编码实验.doc

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
南邮通达语音时频参数的提取和应用和语音编码实验

南京邮电大学通达学院 实 验 报 告 实验名称 语音时频参数的提取和应用实验 语音编码实验 课程名称 信息处理技术专业综合实验 班级学号 姓 名 开课时间 2016/2017 学年, 第 二 学期 实验一 语音时频参数的提取和应用 一、实验目的 熟悉基本的语音时频参数提取方法,观察并比较各类参数采用不同提取方法的效果,了解这些时频参数在语音处理中的应用。 二、实验内容 1、编写并调试语音时域参数提取程序,包括短时功率、短时过零率等函数。 2、编写并调试语音频域参数提取程序,包括频谱、语谱图、基音频率、共振峰等。 3、利用提取出的时频参数对语音信号进行静/清/浊音的划分。 三、实验原理 语音信号具有短时平稳性,需对其进行分段(帧)处理(帧长一般取10至30ms之间)。 根据激励方式的不同,语音信号可以分成浊音和清音两大类: 浊音:激励源可模拟成准周期性的脉冲串。该周期称为基音周期,其倒数就是基音频率,基音频率一般在几百赫兹以内。 清音:激励源可模拟成随机白噪声。 简化的语音生成数学模型如图所示: 对语音时\频波形进行绘制与观察,有助于了解语音的清/浊音等特性。对基音周期等声门参数和共振峰等声道参数进行提取与分析,是语音处理与应用的重要内容。 对于时变语音信号,可以计算它的短时功率和短时过零率。第m帧(帧长为N个样点)的功率计算公式为: 过零率计算公式为: 对于浊音语音,可以利用其频谱具有丰富的谐波分量的特点,求出其谐波乘积谱,计算公式为: 式中,R一般取为5。在谐波乘积谱中,基频分量变得很大,更易于估计基音周期。 四、实验方法及程序 1. 调用matlab中的wavread和wavplay读入并播放语音文件。 2. 调用fft命令计算语音的频谱。 3. 调用specgram命令得到语音的语谱图。 4. 调用plot命令绘制并观察语音的时\频域波形。 5. 根据短时功率、短时过零率、谐波乘积谱的计算公式,编写分别用以计算短时功率、短时过零率、基音频率的函数:function Px=stpower、function Zx = stzerocross(x, N) 和function HPSx = hpspectrum(x,N,R)。 6. 利用短时功率和短时过零率这两个参数可以对语音信号进行浊音/清音分类。编写实现此分类功能的函数voiunvoi.m。 五、实验结果与分析 1. 清音和浊音的短时功率、短时过零率各有何特点? 清音段的能量一般比浊音段的小得多。 浊音时能量集中于较低频率段内,具有较低的过零率,而清音时能量集中于较高频率段内,具有较高的过零率。 2. 如何利用短时功率和短时过零率这两个参数对语音信号进行浊音/清音的分类? 发浊音时,由于声门波引起了谱的高频跌落。所以其语音能量集中在3kHz以下;发清音时,多数能量出现在高频。高频率意味着高的平均过零率,低频率意味着低的平均过零率,一般可认为浊音具有较低的平均过零率,清音具有较高的平均过零率。 3. 如何根据时域波形估计各帧元音的基音周期? 看图可知四帧语音的周期均为0.01s,第一帧0~100Hz有10个峰值点,基频约为10Hz,第二帧0~100Hz有5个峰值点,基频约为20Hz,第三帧0~100Hz有5个峰值点,基频约为20Hz,第四帧0~100Hz有4个峰值点,基频约为25Hz。 4. 如何根据基于DFT的对数幅度谱估计某幀浊音的基音周期? 0~1172为一个基因周期。 5. 如何根据基于DFT的对数幅度谱,估计出共振峰频率? 有7个峰点,因此基频约为167。 6. 时域对语音信号进行加窗,反映在频域,其窗谱对基于DFT的对数幅度谱有何影响?如何估计出窗谱的主瓣宽度? 因为时间窗幅度的傅立叶变换为脉冲状态,则频谱偏差很小,当定常过程x(n)的平均值β为零且N很大时 E[TN(ω)]=f(ω)(12) 所以加窗的周期图TN(ω)是频谱密度函数的无偏估计。固有TN(ω)=[1+ξ(ω)]f(ω)。“0” 到 “9” 的发音 digits.txt gliss.mat % 两个包含/i/的滑音 gliss.txt letters.mat % 英文字母表中26个字母的发音 letters.txt ma1.txt ma1-1.mat % 一句连续语音 ma1-

文档评论(0)

jiupshaieuk12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档