- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第03讲语音信号变换域(频域倒谱)分析
上次课内容简单回顾 语音信号的数字化和预处理 语音信号的时域分析 (1)语音信号的数字化 预处理一般包括预加重、加窗和分帧等。 (3) 语音信号的时域分析 短时能量及短时平均幅度 短时过零率 短时自相关函数 短时平均幅度差函数 短时分析将语音流分为一段一段来处理,每一段称为一“帧”; 帧长:10~30ms,20ms常见; 帧移:0~1/2帧长,帧与帧之间的平滑过渡; 由于 相当于信号谱 与窗函数谱的卷积,因此应该使窗函数的频谱分辨率高,主瓣尖锐;同时还要使旁瓣衰减大,这样与信号卷积时的频谱泄露才会少。 为了使 能够与 具有相同的性质,则要求 必须是一个冲激函数。窗长越长, 的主瓣越狭窄尖锐,则 越接近 。 但窗长太大时,窗选信号已经不满足语音的短时平稳特性,此时 已不能正确反映短时语音的频谱了。为此,必须要折中选择窗长。 FFT的计算可以在通用计算机上由相应的算法软件完成,这种方式一般只能实现非实时运算。 为了完成实时运算可以采用先进的数字信号处理芯片、阵列处理芯片或专用FFT芯片。 下面给出采样率8kHz,窗长400点(50ms)情况下,分别用矩形窗与汉明窗选取同一段浊音信号,求得其对数幅度谱。简单分析一下不同的窗函数对语音信号短时谱的影响。 由上图可看出: (1)它们都具有两种变化。一种是快速变化,这是由于激励信号引起的变化。例如图中由于时域波形具有周期性,因此经短时傅立叶变换得到的对数幅度谱表现出频率等间隔的尖峰,尖峰反映了语音的基频和各次谐波。另一种是慢速变化,这是由于声道滤波器的共振峰特性引起的,它反映了各个共振峰的位置和带宽。而且共振峰的幅度随着频率的增高逐渐衰减。 由上图可看出: 从两个短时频谱图中都可以发现,由于清音的发声类似于随机噪声,因此频谱具有慢速变化的趋势,同时有着频繁的尖峰和谷。当然,汉明窗较之矩形窗有着平滑的短时频谱。 由图可见: 由于窗长很短,所选出的语音段甚至不到一个基音周期长度,因此语音段丢失了关于基音周期的信息,表现在短时谱上就是反映基音频率和谐波的快速变化特点消失了,短时谱中只保留着慢速变化的特点,也就是还保持着声道滤波器的共振峰。由于矩形窗具有更高的频谱分辨率,因此其短时频谱不如汉明窗平滑。 从以上对窗函数和短时频谱的讨论可以得出以下结论: 1)矩形窗和汉明窗的主瓣狭窄且旁瓣衰减较大,具有低通的性质。窗越长,主瓣越窄,加窗后的频谱能更好地逼近短时语音的频谱。 2)窗长越长,频谱分辨率越高,但由于长窗的时间平均作用导致时间分辨率相应下降,如共振峰在不同的基音周期是要发生变化,但如果使用较长的窗则会模糊这种变化。 3)窗长越短,时间分辨率越高,但频率分辨率相应降低。如采用短窗可以清楚地观察到共振峰在不同基音周期的变化情况,但是基频以及谐波的精细结构在短时频谱图上消失了。 4)由于时间分辨率和频谱分辨率的相互矛盾关系,在进行短时傅里叶变换时,应根据分析的目的来折中选择窗长。 §3.4.2 语音的短时谱的临界带特征矢量 利用短时傅立叶变换求取的语音信号的短时谱是按照实际频率分布的,而符合人耳的听觉特性的频率分布应该是按临界带频率分布的。所以,如果用按实际频率分布的频谱作为语音特征,由于它不符合人耳的听觉特性,将会降低语音信号处理系统的性能。 下面介绍一种把实际的线性频谱转化为临界带频谱特征的方法。 第一步,首先求出一帧加窗语音xn(m):m=0~(N-1)的DFT的模平方值|Xn(k)|2,即功率谱。DFT可用FFT计算,设定DFT的点数为512(在实际的语音信号数字处理系统中的DFT点数一般在128、256、512、1024中任选一个,点数越高则频谱分辨精度提高,计算开销相应提高),则可以得到|Xn(k)|2与原始加窗模拟语音的频谱模平方 具有下列关系: (3-35) 式中,ωk=2πfk,fk=kfs/512。 第二步,依据下面公式,在f=0~fs/2中确定若干个 (单位Hz)临界带频率分割点,将i=1,2,3…代入; 由此可求出 临界带特征矢量从人耳对频率高低的非线性心理感觉角度反映了语音短时幅度谱的特征。它的畸变可以用欧式距离来度量,所需的变换可以用高效的FFT来完成,因而使用该特征矢量时计算开销较小。所以可用它作为语音识别系统的特征矢量。 复
您可能关注的文档
最近下载
- 2025年山东省初中信息技术学业水平考试试题模拟题及答案.docx VIP
- 夏普 MX-M6240N MX-M7040N M6240N M7040N彩色复印机中文维修手册.pdf VIP
- 江门市新会区甜水水库工程项目建议书.pdf
- 夏普 MX-C6081D MX-C5081D 6081 5081 彩色复印机中文维修手册.pdf VIP
- 《小学英语课程与教学》第四章.pptx VIP
- 何为基本建设项目.doc VIP
- 《工业数据采集技术_Industrial data》课件——项目二 工业数据采集认知.pptx VIP
- 零星维修工程验收方案(3篇).docx
- 高中化学探究性实验对学习兴趣的影响教学研究课题报告.docx
- 小麦叶龄模式栽培理论与技术体系---郭文善课件.pdf VIP
文档评论(0)