课件:语音信号短时分析技术.pptVIP

  1. 1、本文档共90页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
课件:语音信号短时分析技术.ppt

语音信号处理;1、杨行峻、迟惠生.语音信号数字处理.电子工业出版社,2004. 2、韩纪庆、张磊、郑铁然. 语音信号处理.清华大学出版社,2004. 3、赵力.语音信号处理.机械工业出版社,2003. 4、易克初、田斌.语音信号处理.国防工业出版社,2000. 5、Huang X D, Acero A, Hon H, etal. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. New Jersey: Prentice Hall PTR, 2001 ;语音是语言的声学表现形式,是声音和意义的结合体。 语音的目的是为了能够实现交流(Communication),也就是说要相互的沟通理解(Inter-connected),语音是媒介(Media)!具体形式上表现为携带信息的信号波形(Wave form)。;一、本课程的意义和目的;语音信号处理为多边学科的综合。包括: 声学 (Acoustics) 语言学(linguistics) 语音学(phonetics) 生理学(physiology) 心理学(psychology) 人工智能(Artificial Intellections)。;二、语音技术概述;语音合成(TTS): 把文字变成声音(嘴巴的功能);相当于给机器装上了人工的嘴巴; 语音应答系统 自动报站 信息查询 语言学习软件 TTS(Text to Speech)技术;语音编码:在保持可以接受的失真的情况下,采用尽可能少的比特数表示语音。 脉冲编码调制 自适应预测编码 自适应变换编码 线性预测编码 线性预测声码器 共振峰声码器 相位声码器 ;三、语音信号处理的进展;60年代:;70年代:;目前:;(1) 从语音的产生和语音的感知进行研究;§1.1 语音和语言 ;2、一些基本概念;辅音和元音   音素分为两类:辅音(Consonant) 和元音 (Vowel);辅音和元音的区别有四点:   1、辅音发音时,气流在通过咽头、口腔的过程中,要受到某部位的阻碍;元音发音时,气流在咽头、口腔不受阻碍。这是元音和辅音最主要的区别。   2、辅音发音时,发音器官成阻的部位特别紧张;元音发音时发音器官各部位保持均衡的紧张状态。   3、辅音发音时,气流较强;元音发音时,气流较弱。   4、辅音发音时,声带不一定振动,声音一般不响亮;元音发音时,声带振动,声音比辅音响亮。;半元音:声道基本通畅,但某处比较狭窄,引起轻微摩擦。[W]、[Y];清音和浊音;3、汉语的声调:;4、语音信号的时域波形;Do you like it? Vs Did you like it? Waveform ;;Voice contaminated by engine noise(0dB);10dB mixed;5、语音信号的统计特性;§1.2 语音产生的过程及声学特征;声带(Vocal Cords ) 10~14mm 在喉部的从喉结到杓状软骨之间的韧带褶。 声门(Glottis) 两个声带之间形成一个开闭自如的声门,声带合拢因而受声门下气流的冲击而张开;但由于声带韧性迅速地闭合,随后又张开而闭合,声带开启和闭合使气流形成一系列脉冲 。;声道(vocal tract) 17cm 由咽腔、口腔和鼻腔三个空气腔体组成。 ;听觉系统:;正常人的听域与听阈:;纯音听阈是与频率有关的量,在1000Hz时约为4dB左右,而在40Hz时上升为50dB左右,在15kHz时上升为24dB左右。 ; 响度(Londness)---方(phon) 是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。一样的音强,不一样的频率,则响度也会有所不同。 0dB声强级的1000Hz纯音的响度级为0phon; ndB声强级的1000Hz纯音的响度级为nphon;;听觉掩蔽效应;同时掩蔽:同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈升高到一定程度会导致弱信号不可闻。;§1.4 语音信号的数学模型;发音器官的机理模型:;语音信号的产生模型 ;(1)发浊音时。此时气流通过绷紧的声带,冲激声带产生振动,使声门处形成准周期性的脉冲串,并用它去激励声道。声带绷紧的程度不同,振动频率也不同。该频率就是音调频率,其倒数为音调周期。 (2)发清音时。此时声带松弛而不振动,气流通过声门直接进入声道。表示为均值为0、方差为1,并在时间或在幅度上为白色分布的序列。 ;罗森贝格(Ros

文档评论(0)

iuad + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档