- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第9章 数字声频压缩编码及应用 9.1 人耳的听觉特性 9.2 声频数据压缩编码 9.3 声频压缩标准 9.1 人耳的听觉特性 9.1.1 心理声学 有关人听觉的研究包含人耳的生理结构,以及人的大脑对声音信息的翻译等方面的内容。心理声学研究的是人对所听到的声音的主观反映。 人耳对声音频率的响应是对数的,这可以通过人耳对音程的感觉加以说明。 当频率相近的两个声音同时发声时会产生拍频。 9.1.2 人耳的生理结构和临界频带 1.人耳的生理结构 人耳将声能转换成机械能,并最终将电脉冲传送至大脑,大脑能感知到声音中包含的信息,图9-2所示的是人耳的生理结构解剖图。 2.临界频带 对基底膜的研究表明:人耳中大约包含有30,000个沿着基底膜排列的多列绒毛细胞,每列大约32mm长,这就是所说的螺旋器。 Bark(以德国的物理学家Geory Heinrich Barkhausen的名字命名的)是感知频率的单位。我们用Bark来度量临界频带的比值,一个临界频带具有一个Bark的宽度,1/100Bark相当于1美。 音调定位理论进一步解释了基底膜的作用。 9.1.3 听觉阈和掩蔽 人耳听觉阈范围内临界频带的例子说明了随着绝对频率的增高,临界频带也增宽。 影响人听力的两个基本现象是最小听觉阈和掩蔽。 听觉阈曲线描述的是人耳对某一给定频率的音调音能够检测或听到的最低声级。 当某一音调音使其附近的频率区域的听觉阈的阈值曲线向上推移时,就说明产生了幅度掩蔽。 基底膜的机理可以解释掩蔽现象。 当声音发声在时间上很接近,但不是同时的时候会发生瞬时掩蔽。一个信号可以被在此之后发生的另一个信号(或噪声)所掩蔽,这称为预掩蔽(有时也称为后向掩蔽)。 另外,在一个信号开始之前结束的另一个信号(或噪声)也可以掩蔽这个信号,这称为后掩蔽(有时也称为前向掩蔽)。 瞬态掩蔽理论认为:大脑对一段时间内的声音进行积分处理,并且在听觉皮层上处理脉冲形式的信息;另外,大脑处理强的声音要快于弱的声音。 9.2 声频数据压缩编码 数据压缩编码器就是在量化误差最小的同时,以压缩的数据率来表示声频信号。 频域编码器有两种类型:子带和变换编码器。一般而言,子带编码器具有出色的时间分辨率,但频率分辨率差;而变换编码器有出色的频率分辨率,但时间分辨率差。 子带和变换编码都是针对一定的采样块进行工作的。该采样块必须保持短一点,以使其处在人耳的瞬态分辨率之内。 9.2.1 感知编码的原理 所有数据压缩系统的目的就是减低数据率、采样频率和字长,这一目的可以通过降低采样频率来达到。但是,奈奎斯特理论指出,采样频率的降低相应地也会减小声频带宽的高端频率。另一种方法是减少字长,但是这会造成声频信号动态范围的下降,每减少一比特,动态范围减小6dB,因此造成量化噪声的增加。 9.2.2 子带编码 子带编码是由贝尔实验室于20世纪80年代初首先提出的,并在此后的十年内欧洲对此进行了不间断的研究工作。 其中,图(a)所示的为高分辨率的窄带采样;图(b)所示的为归一化和被比特率压缩的子带采样;图(c)所示的为重建的带有被掩蔽的本底噪声的采样。 解码器利用量化的数据来重新构成每个块中的采样,利用一个反向合成滤波器组将子带信号相加来重建宽带的输出信号。 其中,图(a)所示的为24个频带的子带滤波器的输出;图(b)所示的为计算每个子带的平均电平;图(c)所示的为计算每个子带的掩蔽级;图(d)所示的为闻阈之下的子带不进行编码,闻阈之上的频带进行编码;图(e)所示的为根据掩蔽阈之上的峰值电平情况进行比特分配。 9.2.3 变换编码 在变换编码中,时域声频采样块被转换到了频域。编码器可以采用诸如离散傅立叶变换(DFT)方法——快速傅立叶变换(FFT)来进行变换,或者采用改进的离散余弦变换(MDCT)来进行变换。 时域采样被变换到频域,会产生谱系数。其中的系数数目有时被称为频率箱(Bin)数目, 9.3 声频压缩标准 9.3.1 MP EG-1声频压缩标准 国际标准化组织(ISO)和国际电工委员会(IEC)组成的活动图像专家组(MPEG)颁布了ISO/IEC11172国际标准“对以1.5Mbits/s左右数据率进行的数字存储媒体的活动图像和相应声频的编码”,它用来对数字视频和声频信号进行数据率压缩,它于1992年11月最终定稿,即通常所称的MPEG-1。 MPEG-1标准是专门开发用来支持在1.41Mbit/s的CD带宽上进行CD质量重放的声频和视频编码的。 MUSICAM(掩蔽型通用子带综合编码和复用)是早期开发的一种成功的感知编码算法,它是由MASCAM(掩蔽型自适应子带编码和复用)派生出来的。MUSCAM将输入的声频信号分成32
文档评论(0)