- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数字电视原理与应用的第09章
第9章 数字声频压缩编码及应用;9.1 人耳的听觉特性;9.1.2 人耳的生理结构和临界频带
1.人耳的生理结构
人耳将声能转换成机械能,并最终将电脉冲传送至大脑,大脑能感知到声音中包含的信息,图9-2所示的是人耳的生理结构解剖图。;图9-2 人耳的生理结构和构造剖示图;2.临界频带
对基底膜的研究表明:人耳中大约包含有30,000个沿着基底膜排列的多列绒毛细胞,每列大约32mm长,这就是所说的螺旋器。; Bark(以德国的物理学家Geory Heinrich Barkhausen的名字命名的)是感知频率的单位。我们用Bark来度量临界频带的比值,一个临界频带具有一个Bark的宽度,1/100Bark相当于1美。
音调定位理论进一步解释了基底膜的作用。;9.1.3 听觉阈和掩蔽
人耳听觉阈范围内临界频带的例子说明了随着绝对频率的增高,临界频带也增宽。
影响人听力的两个基本现象是最小听觉阈和掩蔽。
听觉阈曲线描述的是人耳对某一给定频率的音调音能够检测或听到的最低声级。;当某一音调音使其附近的频率区域的听觉阈的阈值曲线向上推移时,就说明产生了幅度掩蔽。
基底膜的机理可以解释掩蔽现象。
当声音发声在时间上很接近,但不是同时的时候会发生瞬时掩蔽。一个信号可以被在此之后发生的另一个信号(或噪声)所掩蔽,这称为预掩蔽(有时也称为后向掩蔽)。; 另外,在一个信号开始之前结束的另一个信号(或噪声)也可以掩蔽这个信号,这称为后掩蔽(有时也称为前向掩蔽)。
瞬态掩蔽理论认为:大脑对一段时间内的声音进行积分处理,并且在听觉皮层上处理脉冲形式的信息;另外,大脑处理强的声音要快于弱的声音。;9.2 声频数据压缩编码; 子带和变换编码都是针对一定的采样块进行工作的。该采样块必须保持短一点,以使其处在人耳的瞬态分辨率之内。;9.2.1 感知编码的原理
所有数据压缩系统的目的就是减低数据率、采样频率和字长,这一目的可以通过降低采样频率来达到。但是,奈奎斯特理论指出,采样频率的降低相应地也会减小声频带宽的高端频率。另一种方法是减少字长,但是这会造成声频信号动态范围的下降,每减少一比特,动态范围减小6dB,因此造成量化噪声的增加。;9.2.2 子带编码
子带编码是由贝尔实验室于20世纪80年代初首先提出的,并在此后的十年内欧洲对此进行了不间断的研究工作。
其中,图(a)所示的为高分辨率的窄带采样;图(b)所示的为归一化和被比特率压缩的子带采样;图(c)所示的为重建的带有被掩蔽的本底噪声的采样。;图9-9 子带编码原理框图; 解码器利用量化的数据来重新构成每个块中的采样,利用一个反向合成滤波器组将子带信号相加来重建宽带的输出信号。 其中,图(a)所示的为24个频带的子带滤波器的输出;图(b)所示的为计算每个子带的平均电平;图(c)所示的为计算每个子带的掩蔽级;图(d)所示的为闻阈之下的子带不进行编码,闻阈之上的频带进行编码;图(e)所示的为根据掩蔽阈之上的峰值电平情况进行比特分配。;图9-10 子带编码示意图;9.2.3 变换编码
在变换编码中,时域声频采样块被转换到了频域。编码器可以采用诸如离散傅立叶变换(DFT)方法——快速傅立叶变换(FFT)来进行变换,或者采用改进的离散余弦变换(MDCT)来进行变换。
时域采样被变换到频域,会产生谱系数。其中的系数数目有时被称为频率箱(Bin)数目,;9.3 声频压缩标准; MPEG-1标准是专门开发用来支持在1.41Mbit/s的CD带宽上进行CD质量重放的声频和视频编码的。
MUSICAM(掩蔽型通用子带综合编码和复用)是早期开发的一种成功的感知编码算法,它是由MASCAM(掩蔽型自适应子带编码和复用)派生出来的。MUSCAM将输入的声频信号分成32个子带,并利用最小听阈和掩蔽创建的编码模型来取得数据压缩。; 在复杂性和编码延时方面,MUSICAM是相当不错的。
1.MPEG-1层Ⅰ
层Ⅰ可以说是MUSICAM标准的简化版本,层Ⅰ单通道编码器和解码器的框图(也适用于层Ⅱ)如图9-15所示。
;图9-15 MPEG-1层Ⅰ或层Ⅱ的声频编码器和解码器;2.MPEG-1层Ⅱ
层Ⅱ基本上与最初的MUSICAM标准相一致(帧的字头不同),所以与层Ⅰ相类似,但在设计上较层Ⅰ更复杂精密一些。;3.MPEG-1层Ⅲ
层Ⅲ结合了与MUSICAM和ASPEC一样的基本要素,并且较层Ⅰ和层Ⅱ更加复杂。它可以以非常低的数据率和稍高一点的成本为代价,来得到适度保真度的音质。它的文件就是所说的MP3文件。
分配控制算法采用了动态量化,噪声分配迭代环路被用来计算并优化每个子带的最佳量化噪声,这称之为噪声分配,这与比特分配相对应。;4.心理声学模型
MPEG-
文档评论(0)