第5章音频数据的压缩编码研究报告.ppt

第5章 音频数据的压缩编码 第5章 音频数据的压缩编码 明确人的听觉特性 掌握音频编码的分类及原理 掌握MPEG-1音频编码的原理和特点 了解MPEG-2音频编码 学习目标 第5章 音频数据的压缩编码 本章的主要内容 5.1概述 5.2人的听觉特性 5.3音频信号的数字化 5.4-5.8 5.9MPEG-1音频编码 5.10MPEG-2音频编码 5.12音频压缩编码的国际标准 小结 5.1 概述 声音是机械振动在弹性介质中传播的机械波,称为声波。 声音转换为电信号时,声音的电信号在时间和幅度上都是连续的模拟信号。 振幅 周期 ● 振幅 — 波的高低幅度,表示声音的强弱 ● 周期 — 两个相邻波之间的时间长度 ● 频率 — 每秒钟波振动的次数,单位是 Hz ● 声音特性 空气、液体、固体 ●认识声音 声音的强度 (响度或音量),与声波振幅成 正比;唱盘、CD 盘等声音载体中的音强 不变,通过播放设备的音量控制可改变聆 听时强度;音频处理软件可提高声源音强 声音的特色,主要影响因素是复音;复 音指具有不同频率和不同振幅的混合声 音,其中最低频率是 “基音”,是声音的 基调,其他频率的声音为 “谐音 (泛音)” 代表声音的高低,与频率有关;使 用音频处理软件对声音的频率进行 调整时,其音调也会随之发生变化 ●声音的三要素 ● 音调 —— (高低) (高) (低) ● 音强 —— (强弱) (弱) (强) (停) ● 音色 —— (特质) 钢琴 吉他 小号 小提琴 5.1 概述 音频压缩编码研究的基本问题 在给定编码速率的条件下,如何能够得到尽量好的重建语音质量; 尽量减少编码延时; 降低算法的复杂程度。 音频信号分为话音(人的说话声音)和一般声音(如音乐)两类。 5.1 概述 音频编码分类 按照编码速率来分: 高速率(32kb/s 以上) 极低速率(1.2kb/s以下) 中高速率(16-32kb/s) 中速率(4.8-16kb/ s) 低速率(1.2-4.8kb/s) 按照编码方法来分: 波形编码 参数编码 混合编码 5.2 人的听觉特性 声音频率是常用的描述声音的参量,人耳所能感受到的声音的频率范围在16HZ-16KHZ。 声压及声压级SPL(Sound Pressure Level)也是常用的声音描述参量。简单来说,声压就是声音的压力。 5.2.1 响度级和响度 响度 表征声音的强弱 响度的客观测量单位 声压dyn/cm(达因/平方厘米);声强W/cm(瓦特/平方厘米) 描述主观声音的强弱 响度级:方(phon);响度:宋(sone) 2 2 5.2.1 响度级和响度 人耳的等响度曲线:实验表明,人耳感知的声音强度是频率和声压级的函数,通过比较不同频率和幅度的语音可以得到人耳的等响度曲线。 图5-1 等响曲与声强的关系 5.2.2 听觉灵敏度 听阈:能引起人耳听到声音时的声压称为听阈; 听觉灵敏度:在给定频率上,人耳能够听到声音的最小声压级。 横轴表示频率,纵轴表示与这段信号相比其他频率信号能被听到的强度,用分贝表示; 从图中看出,人耳对不同频率的敏感程度差别很大,其中对2-4KHZ范围的信号最为敏感,这个频段以外,人耳的听觉灵敏度逐渐降低。 5.2.3 听觉掩蔽 人耳听觉的掩蔽效应: 一个频率声音的听阈由于另一个声音的存在而上升的现象称为掩蔽。在一个较强的声音附近,相对较弱的声音将不能被人耳察觉,即被强音掩蔽。 频域掩蔽(同时掩蔽) 当音频信号中存在多个信号时,强信号会降低人耳对该信号频域附近其他信号的敏感度,这种现象称为频率掩蔽,也称同时掩蔽,是较强的掩蔽效应。 时域掩蔽(异时掩蔽) 人耳听到一个强音后,会经过一个短暂的延时才能听到较弱的声音,称为时域掩蔽,也称异时掩蔽。 超前掩蔽(5-20ms) 滞后掩蔽(50-200ms) 5.2.4 临界带宽 为了描述窄带噪声对纯音信号的掩蔽效应,引入临界带宽的概念。 临界带宽:一个纯音可以被以它为中心频率,并且有一定宽度的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这是该纯音处于刚好能被听到的临界状态,则称这一带宽为临界带宽。 单位:巴克(Bark) 1 Bark=一个临界带宽 5.3 音频信号数字化 转换 模拟信号 数字信号 采样、量化、编码 5.3 音频信号数字化 音 频 信 号 频 率 采 样 频 率 采 样 量 化 保 存 为 声 音 文 件 开 始 结 束 根据声音频带、取样频率和样本精度,通常把声音分为五个等级(见表5-1)。由低到高为: 电话、调幅(AM)广播、调频(FM)广

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档