02语音处理的基本知识选读.ppt

下载文档 降价啦

1
0
约4.7千字
约 92页
2017-04-29 发布于湖北
举报
版权申诉
保障服务

02语音处理的基本知识选读.ppt

1、本文档共92页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第2章数字音频信号处理技术;音频处理技术的研究意义;2.1 数字音频基础;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（1）声音简介;（2）模拟音频的数字化;声音信号的数字化过程;（a）采样和量化连续时间的离散化通过采样来实现，就是每隔相等的一段时间采样一次，这种采样称为均匀采样连续幅度的离散化通过量化(quantization)来实现，就是把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。;图7 声音的采样、量化、编码;（2）模拟音频的数字化;（2）模拟音频的数字化;（2）模拟音频的数字化;（2）模拟音频的数字化;（b）编码所谓编码，就是按照一定的格式把经过采样和量化得到的离散数据记录下来，用二进制数据表示，以后续达到可以形成数据文件进行存储的目的。并在有效的数据中加入一些用于纠错同步和控制的数据。在数据回放时，可以根据所记录的纠错数据判别读出的声音数据是否有错，如果有错，可加以纠正。音频信号编码常用的是波形编码方法，它是直接对波形采样、量化和编码，算法简单，易于实现。而且，声音恢复时能保持原有的特点，因此被广泛应用。此外还有参数编码、混合编码等。;编码方法;编码方法;编码方法;编码方法——脉冲编码调制(PCM);量化的方法:均匀量化、非均匀量化均匀量化采用相等的量化间隔/等分尺度量采样得到的信号幅度，也称为线性量化。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。;编码方法;编码方法——;编码方法——;音频信号编码;音频信号编码;（3）声音质量的评价;（3）声音质量的评价;（3）声音质量的评价;;声音质量的衡量方法客观质量度量用信噪比(SNR)表示主观质量度量有时同时采取两种方法评估，有时以主观质量度量为主声音带宽法等级由高到低依次是DAT、CD、FM、AM和数字电话;2.2 数字音频压缩技术;什么是音频压缩; 虽然表示数字音频需要大量的数据，但数字音频数据是高度相关的，或者说存在冗余（Redundancy）信息，去掉这些冗余信息后可以有效压缩数据量，同时又不会损害声音的有效信息。;你的妻子，Helen，将于明天晚上6点零5分在上海的虹桥机场接你。 (23*2+10=56个半角字符) 你的妻子将于明天晚上6点零5分在虹桥机场接你 (20*2+2=42个半角字符） Helen将于明晚6点在虹桥接你 (10*2+6=26个半角字符）;*;按照一致性分类：可逆编码（无失真编码，lossless）：解码信号与原始信号严格相同。如Huffman编码、算术编码、游程编码。不可逆编码方法（无失真编码， lossy）：还原信号与原始信号存在一定的误差，但效果可以接收。按照压缩方案的不同：又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度、压缩质量、算法效率（即压缩比例），以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。;按照压缩方法分类：预测编码：利用空间中相邻数据的相关性，利用过去和现在出现过的点的数据情况来预测未来点的数据。如差分脉冲编码调制（DPCM）、自适应差分脉冲编码调制（ADPCM）等。变换编码：将时域信号变换到频域空间上处理。比如K-L变换、DCT(离散余弦变换)变换等。信息熵编码：让出现概率大的用短的码字表达，反之用长的码字表示。如Huffman编码。子带编码：将图像数据变换到频域后，按频域分带，然后用不同的量化器进行量化，从而达到最优的组合。; 音频信号压缩编码不仅利用一般压缩编码方法，而且利用人耳的听觉特性，主要有两点： 1.人的听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号人耳听不到. 2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时，强声使弱声难以听到，并且两者之间的关系与其相对频率的大小有关. 声音编码算法通过这些特性来去掉更多的冗余数据，来达到压缩数据的目的。 ;音频压缩;电话质量的语音压缩标准：300Hz~3.4KHz。当采样频率为8KHz，量化位数为8bit时所对应的速率为6kbit/s。调幅广播质量的音频压缩标准：50Hz~7KHz。当使用16KHz的抽样频率和14bit的量化位数