数字音频压缩技术与应用.docVIP

下载本文档

102
0
约8.63千字
约 11页
2017-01-23 发布于江西
举报
版权申诉

数字音频压缩技术与应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数字音频压缩技术与应用广东电视台制作部叶志阳【摘要】随着通信、广播电视、计算机网络等技术的飞速发展，音频压缩技术在各个领域得到广泛应用，本文介绍了目前在广播电视领域中流行的几种音频压缩编码标准，并着重讨论了MPEG标准中AAC、HE-AAC等的音频压缩编码技术及应用。【关键词】压缩 MPEG HE-AAC DRA 前言自从信息产业兴起以来，数字化成为许多高科技产业的发展趋势，人们正享受着数字化带来的方便和快捷，数字广播电视、互联网、通讯和各种数码音乐产品正改变着我们的生活。然而，音频信号数字化之后所面临的一个问题是巨大的数据量给存储和传输带来的压力，如何在不影响质量的前提下作有效数据压缩，便成为音频数字化的一大课题。一、音频压缩的必要性未经压缩的 PCM 信号的数据量具体有多大呢？以 CD 音质的信号为例，所用的采样频率是 44.1k Hz ，量化精度是16bit，双声道立体声时，其数码率约为 44.1K × 16 × 2 ≈ 1.411Mbit/s，1秒的CD立体声信号需要约176.4KB的存储空间，一张CD光盘的容量只有一个小时左右。这种编码方式所产生的数据量太大，如果没有通用有效的高质量音频编解码方案，数字存储和传输技术的进一步发展将会受到严重的束缚。因此，必须采用相应的方法，来降低数字音频信号的数据量，音频压缩技术指的是对原始数字音频信号PCM码流运用适当的数字信号处理技术，在不损失有用信息量，或所引入损失可忽略的条件下，降低（压缩）其码率，也称为压缩编码或信源编码。它必须具有相应的逆变换，称为解压缩或解码。信源编码的任务主要是解决数据存储、交换、传输的有效性问题，通过对信源数据率的压缩，力求用最少的数码传递最大的信息量。二、音频压缩编码技术的分类在进行信源编码时，既希望最大限度地降低码率，又希望尽可能不要对音源造成损伤，二者是相矛盾的，随着比特率的进一步压缩，势必要影响信源的失真度。一般来讲，根据压缩后的音频能否完全重构出原始声音可以将音频压缩技术分为无损（lossless）压缩及有损（lossy）压缩两大类。无损压缩时根据统计学观点分析数据流，仅从数据量减少数据率，有损压缩是从声音怎样被听到的基础上来减少数据率，利用人的听觉不能检测某些信号损失，从而可以大量减少比特率。而按照音频压缩编码方式的不同又可将其划分为时域编码（包括预测编码、增量编码）、频域编码(包括变换编码、子带编码)、统计编码（熵编码、哈夫曼编码）以及多种技术相互融合的混合编码等。对于各种不同的压缩编码方法，其算法的复杂程度（包括时间复杂度和空间复杂度）、重建音频信号的质量、算法效率（即压缩比），编解码延时等都有很大的不同，因此其应用场合也各不相同。下面介绍几种主要的压缩编码方式： 1、时域编码是指直接针对音频PCM码流的样值进行处理，通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低，声音质量一般，压缩比小（CD音质400kbps），编解码延时最短（相对其它技术）。此类压缩技术一般多用于语音压缩，低码率应用（源信号带宽小）的场合。 2、子带编码理论的基本思想是将信号分解为若干子频带内的分量之和，然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。子带编码技术和后面介绍的变换编码技术都是利用人耳的听觉感知特性，使用心理声学模型（psychoacoustic model），通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的，因此又可称为感知型（Perceptual）音频编码。这两种编码方式相对时域编码技术而言要复杂得多，同时编码效率、声音质量也大幅提高，编码延时相应增加。一般来讲，子带编码的复杂度要略低于变换编码，编码延时也相对较短。由于在子带编码技术中主要应用了心理声学中的声音掩蔽模型，因而在对信号进行压缩时引入了大量的量化噪声。然而，根据人耳的听觉掩蔽曲线，在解码后，这些噪声被有用的声音信号掩蔽掉了，人耳无法察觉；同时由于子带分析的运用，各频带内的噪声将被限制在频带内，不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同，采用了动态比特分配技术，这也正是此类技术压缩效率高的主要原因。在一定的码率条件下，此类技术可以达到“完全透明”的声音质量（EBU音质标准）。 3、变换编码技术与子带编码技术的不同之处在于该技术对一段音频数据进行“线性”的变换，对所获得的变换域参数进行量化、传输，而不是把信号分解为几个子频段。通常使用的变换有DFT（离散富氏变换）、DCT（离散余弦变换）、MDCT（改进的离散余弦变换）等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善，而相应付出的代价则是计算复杂度的提高。三、目前主流音频压缩编码