- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音信号处理(张力编)课件第二章
发音语音学:生理语音学,研究语音产生机理 声学语音学:研究语音传递阶段的声学特性 听觉语音学:研究语音感知阶段的生理和心理特性 语音:人与人的沟通介面 二 语音的产生 肺 在垂直方向上 汉语音节结构的特点 (1)音节以可延长的浊音结尾,不仅适于说话呼喊,还适于歌唱 (2)音节的轻重音表达非常方便 (3)音节的清晰度很高 声、韵、调组成的三维空间 声、韵、调的统一体 声韵互调 声调具有抗干扰能力 ☆外耳结构:由耳翼、外耳道和鼓膜组成。 正常人耳能感知的频率范围为16Hz~16KHz;强度范围为0dB~120dB,直接损伤160db。 音调是人耳对不同频率声音的一种主观感觉。单位为Mel,与频率近似的满足方程: 等响度曲线 响度级:1KHZ纯单的声压级为0dB,响度级定为0PHON,声压级40dB定为40PHON。 声压级:声压与参考声压的比值取常用对数再乘以20的值,但是为分贝,符号为db. 参考声压为2*10^-5Pa 例:飞机附近的声压为200Pa,声压级是多少? 20*log10(200/2*10^(-5))=140db 时频分析特性 耳蜗像频谱分析仪,将复杂的信号分解成各种频率分量 各种不同的掩蔽效果 (1)纯音调信号间的掩蔽 (2)宽带噪声对纯音调的掩蔽 (3)窄带噪声对纯音调的掩蔽 中心频率不同的窄带噪声产生的掩蔽阈值曲线的形状是不同的。 二、语音信号的语谱图 语谱图是三维频谱,他是表示语音频谱随时间变化的图形,横轴为时间,纵轴为频率,任一给定频率成分在给定时刻的强弱用相应点的灰度或者色调的浓淡来表示。 语谱图的分类 宽带语谱图:带通滤波器的宽度为45hz 时间分辨率好,能给出共振峰频率 窄带语谱图:带通滤波器的宽度为300hz 频率分辨率好,有利于显示基频和谐波 2.并联型(大部分辅音) 传输函数,零极点IIR滤波器 V1 V2 V3 V4 V5 3. 混合型(根据需要进行模型的切换) V1 V2 V3 V4 V5 V1 V2 V3 V4 V5 AB A1 A2 A3 A4 A5 三、辐射模型 线性系统 唇辐射R(z) ul(n) pl(n) 唇端辐射损耗在高频端较为显著,而在低频端影响较小,R(z)应具有高通特性。 四、完整的语音信号的数学模型 Av 冲激序列 发生器 声门脉冲 模型G(z) 随机噪声 发生器 基音周期TP AN 线性系统 声道V(z) 辐射模型 R(z) 清/浊音开关 传输函数 传输函数的具体表达式: §2.5 语音信号的特性分析 一、语音信号的时域波形和频谱特性 二、语音信号的语谱图 三、语音信号的统计特性 一、语音信号的时域波形和频谱特性 时域波形:幅度-时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率。 男声汉语拼音bocai的时域波形 频谱特性:幅度谱图。得出基音周期、共振峰频率及其位置。 女声英文a的频谱 C时域波形 C频谱图 内耳 ★ 结构:半规管、前庭窗、耳蜗组成。 ★ 作用:将振动转换成神经冲动. 人工耳蜗是一种电子装置,能帮助重度及极重度耳聋患者重新恢复听觉。 人工耳蜗 人工耳蜗的工作原理 麦克风----言语处理器----传输线圈----皮下接收器----刺激听神经纤维 2.声音传入内耳的途径 由空气传导,称为气导,其过程为: 声波 耳廓 鼓膜 听骨 内耳 基底膜上 毛细胞电位改变 神经冲动 由骨传导,称为骨导,其过程为: 声波 颅骨 外淋巴振动 内耳 基底膜上毛细胞电位改变 神经冲动 3. 人耳的两个重要特性 (1)耳蜗对声信号的时频分析特性 (2)人耳的掩蔽效应 响度用来描述人耳对不同频率的纯音的辨别灵敏度。单位为Phon。1Phon等于1kHz纯音的声强级。而零方对应人耳的听阈。 人耳感知的声音响度是频率和声压级的函数。通过比较不同频率和幅度的语音可以得到主观等响度曲线。 0.000063 0.0002 0.00063 0.002 0.02 0.063 0.63 20 200 声压/Pa 10 农村静夜 20 树叶沙沙声 30 耳语 40 安静房间 60 普通谈话 70 繁华街道 90 地铁 100 织布车间 140 飞机附近 声压级/dB 声源 掩蔽效应 人耳的掩蔽(masking phenomenon)效应:在一个强信号附近弱信号将变得不可闻。 掩蔽阈值 被掩蔽掉的不可闻信号的最大声压级称为掩蔽门限和掩蔽阈值(masking threshold),在这个掩蔽阈值以下的声音将被掩蔽掉。 1kHz的听阈 1dB 20dB 4dB 可闻声 3dB 不可闻声 图形描述 频率为1k
文档评论(0)