语音信号处理第3版第2讲.ppt

下载文档 降价啦

14
0
约4.16千字
约 32页
2017-03-01 发布于湖北
举报
版权申诉
保障服务

语音信号处理第3版第2讲.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语音信号处理第3版第2讲

响度：描述声音的响亮程度，表示人耳对声音的主观感受，单位宋，定义为声压级为40dB的1kHz纯音的响度为1宋频率与音高：以Hz为单位所测得的物理量——频率，对听者来说感知为心理量——音高，即用人的主观感觉来评价所听到的声音时高调还是低调。音高随频率的增加而提高。语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码（一般就是PCM码）；预处理一般包括预加重、加窗和分帧等。在分析处理之前必须把要分析的语音信号部分从输入信号中找出来这项工作叫做语音信号的端点检测。带通滤波器自动增益控制（AGC）模/数转换（A/D）脉冲编码调制（PCM）语音信号存入计算机预滤波、采样、A/D变换预滤波的目的有两个：抑制输入信号各频域分量中频率超出fs/2的所有分量（fs）为采样频率，以防止混叠干扰。抑制50Hz的电源工频干扰。这样，预滤波器必须是一个带通滤波器，设其上、下截止频率分别是fH和fL：绝大多数语音编译码器： fH=3400Hz，fL=60-100Hz，fS=8kHz 要求较高的场合fH=4500HzfL=60Hz采样率fS=10kHz 预滤波、采样、A/D变换语音信号经过预滤波和采样后，由A/D变换器变换为二进制数字码。 A/D变换中要对信号进行量化，量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为量化误差，又称为量化噪声。若信号波形的变化足够大，或量化间隔Δ足够小时，可以证明量化噪声符合具有下列特征的统计模型： ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布，即具有等概率密度分布预滤波、采样、A/D变换若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表示量化字长, σe2表示噪声序列的方差,可以证明量化信噪比SNR（信号与量化噪声的功率比）为：假设语音信号的幅度符合Laplacian分布,此时信号幅度超过4σx的概率很小，只有0.35%，因而可取Xmax=4σx，则上式表明量化器中的每bit字长对SNR的贡献为6dB。语音输入——输出过程：对重构的语音波形的高次谐波起平滑作用去掉高次谐波失真。反混叠滤波语音输入 A/D变换分析处理传输或存储合成处理 D/A变换平滑滤波语音输出预处理已数字化的语音信号序列将依次存入一个数据区，在语音信号处理中一般用循环队列的方式来存储这些数据，以便用一个有限容量的数据区来应付数量极大的语音数据，已处理完提取出了语音特征参数的一个时间段的语音数据可以依次抛弃，让出存储空间来存储新数据。调频收发技术中，通常采用预加重（发送端对输入信号高频分量的提升）和去加重（解调后对高频分量的压低）技术解决高频传输困难的问题。语音增强语音编码语音合成与转换语音隐藏语音识别声源定位情感识别…… 2.1语音发音及感知系统 2.2语音信号生成的数学模型 2.3语音基本概念与参数 2.4语音信号的数字化和预处理 2.5语音信号的应用语音信号处理：研究用数字信号处理技术对语音信号进行处理的一门学科目的：（1）通过处理得到一些反映语音信号重要特征的语音参数，以便高效地传输或存储语音信号信息（2）通过处理的某种运算已达到某种用途的要求人们讲话时发出的话语叫语音，它是一种声音，具有称为声学特征的物理特性。语音（Speech）是声音（Acoustic）和语言（Language）的组合体。可以这样定义语音：语音是由一连串的音组成语言的声音。人的发音器官包括：肺、气管、喉（包括声带）、咽、鼻和口。喉的部分为声门。从声门到嘴唇的呼气通道叫做声道，声道形状的不断改变。发出不同的语音。语音是由肺至唇各种器官作用而发出的，其作用的方式有3种：（1）把肺部呼出的直气流变为音源（2）对音源起共振和反共振的作用，使之带有音色（3）从唇或鼻向空间辐射对发音影响最大的是声带，每开启和闭合一次的时间即声带的共振周期，就是音调周期或基音周期，其倒数为基音频率（其范围随发音人的性别、年龄而定）。E.g.老年男性偏低，小孩和青年女性偏高基音频率决定了声音频率的高低，频率快则音调高，频率慢则音调低。人的听觉系统是一个十分巧妙的音频信号处理器。主要完成声音的采集、频率分解、声能转换、声音加工和分析以及感觉声音的音色、音调、音强、判断方位等功能。听觉具有选择性：能被人耳听到的声音取决于声音的强度和频率范围。（一般人可以感觉到20Hz~20kHz，强度为-5dB~130dB的声音信号）听觉具有掩蔽效应：指在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。 2.