- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数字语音处理知识点总结
绪论
语音信号处理是一门新兴的边缘学科,它是语音学与数字信号处理两个学科相结合的产物。
语音信号处理的目的是要得到某种语音特征参数以便高效地传输或存储,或者是通过某种处理运算以达到某种用途的要求。
通常认为,语音信息的交换大致上可以分为三类:(1)人与人之间的语言通信:包括语音压缩与编码、语音增强等。(2)第一类人机语言通信问题,指的是机器讲话、人听话的研究,即语音合成。(3)第二类人际语言通信问题,指的是人讲话、机器听话的情况,即语音识别和理解。
自20世纪80年代末期至今,语音合成技术又有了新的进展,特别是1990年提出的基音同步叠加(PSOLA)方法,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。
语音编码的目的就是在保证一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源。
语音编码技术主要有两个努力方向:一是中低速率的语音编码的实用化及如何在实用化过程中进一步提高其抗干扰、抗噪声能力,另一个是如何进一步降低其编码速率。
语音信号的数字模型
人类的语音是由人的发声器官在大脑的控制下的生理运动产生的,人的发声器官由3部分组成:(1)肺和气管产生气源,(2)喉和声带组成声门,(3)由咽腔、口腔、鼻腔组成声道。
肺的发声功能主要是产生压缩气体,通过气管传送到声音生成系统,气管连接着肺和喉,它是肺与声道联系的通道。
响度——这是频率和强度级的函数,通常用响度(单位为宋)和响度级(单位为方)来表示。
人耳刚刚能听到的声音强度,称为“听阈”,此时响度级定为零方。
响度与响度级是有区别的,60方响度级比30方响度级的声音要响,但没有响了一倍。响度是刻划数量关系的,2宋响度要比1宋响度的声音响一倍,1宋响度被定义为1kHz纯音在声响级为40dB时(声强为10^-12W/cm^2)的响度。
音高也称基音,物理单位为赫兹,主观感觉的音高单位是美(Mel),当声强级为40dB(或响度级为40方)、频率为1kHz时,设定的音高为1000美。
由发声机理模型图可知,语音生成系统包含三部分,由声门产生的激励函数G(z)、由声道产生的调制函数V(z)和由嘴唇产生的辐射函数R(z)。语音生成系统的传统函数由这三个函数级联而成,即:H(z)=G(z)V(z)R(z)
发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角形的脉冲,也就是说,这时的激励波是一个以基音为周期的斜三角脉冲串。
G(z)=
典型的声道模型有两种,即无损声管模型和共振峰模型,通过两种方法得到的数字模型本质上没有区别。
当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振,反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫做共振峰。
下面的图为浊音的频谱图,具有明显的蜂起,即为共振峰,一般元音可以有3~5个共振峰。
例如对成人声道L=17cm长,其共振频率计算公式为Fi=c(2i-1)/4L i=1,2,3,...,i是共振频率的序号,c=340m/s为声速。
根据随即过程理论,一个零点可以用若干极点来近似,因此,适当选取极点个数P,可以用全极点模型即AR(p)过程来表达语音信号:
H(z)=
语音信号产生的二次元激励模型:
语音信号的短时时域分析
有了语音数据文件后,对语音的预处理包括:预加重和加窗分帧等。
对输入的数字语音信号进行预加重,其目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率,一般通过传递函数为H(z)=1-αz^-1的一阶FIR高通数字滤波器来实现预加重,其中,α为预加重系数,0.9α1.0。
进行预加重数字滤波处理后,接下来进行加床分帧处理。
由于发声器官的惯性运动,可以认为在一小段时间里(一般为10~30ms)语音信号近似不变,即语音信号具有短时平稳性,这样,可以把语音信号分为一些短段(称为分析帧)来进行处理。
矩形窗的主瓣宽度小于汉明窗,具有较高的频谱分辨率,但是矩形窗的旁瓣峰值较大,因此其频谱泄露比较严重,相比较,虽然汉明窗的主瓣宽度较宽,约大于矩形窗一倍,但是它的旁瓣衰减较大,具有更平滑的低通特性。
在确定窗函数后,对语音信号的分帧处理,实际上就是对各帧进行某种变换或运算,设这种变换或运算用T[ ]表示,x(n)为输入语音信号,ω(n)为窗序列,h(n)是与ω(n)有关的滤波器,则各帧经处理后的输出可以表示为
Qn=
常见的几种短时处理方法:
T[x(m)]=x^2(m),h(n)=ω^2(n),Qn对 应于能量。
T[x(m)]=|sgn[x(m)]-sgn[x(m-1)]|,h(n)=ω(n),Qn对应于平均过零率。
T[x(m)]=x(m)x(m+k),h(n)=ω(n)ω(n+k),Qn对应于自相关函数。
定义n时刻某语言信号的短时平
文档评论(0)