- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 数字音频的编码与接口
第二章 数字音频的编码与接口
音频的编码解码是对信号进行压缩解压缩基本上都是通过各种变换和模型来去除冗余,去除冗余的方法优劣决定了编码算法的好坏,不同的算法的计算复杂度也不同,很多音视频编解码都是压缩效果和当前条件实际可行性的某种折衷。CD(44.1kHz、16bit的PCM编码)为例,每声道净码率就达到705.6Kbps。在广播音频制作领域,采用更高的采样率和量化比特以获得更高音质已成为一种 趋势,如果将采样频率由48kHz提高到96kHz甚至192kHz,量化精度由16bit提高到24bit,仍采用PCM编码,其数据量无疑会更大。这无论对于存储还是传输,对大多数应用而言都不现实。为降低存储空间和传输戚本,对数字信号进行压缩是十分必要的。
2.1数字音频的编码原理
音频信号数字化之后所面临的一个问题是巨大的数据量,这为存储和传输带来了压力。例如,对于CD音质的数字音频,所用的采样频率为44.1kHz,量化精度为16bit;采用双声道立体声时,其数码率约为1.41Mb;1秒的CD立体声信号需要约176.4KB的存储空间。因此,为了降低传输或存储的费用,就必须对数字音频信号进行编码压缩。到目前为止,音频信号经压缩后的数码率降低到32至256kbs,语音低至8kbs以下,个别甚至到2kbs。为使编码后的音频信息可以被广泛地使用,在进行音频信息编码时需要采用标准的算法。因而,需要对音频编码进行标准化。音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。数字信号的优势是显而易见的,而它也有自身相应的缺点,即存储容量需求的增加及传输时信道容量要求的增加。以CD为例,其采样率为44.1KHz,量化精度为16比特,则1分钟的立体声音频信号需占约10M字节的存储容量,也就是说,一张CD唱盘的容量只有1小时左右。当然,在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢?研究发现,直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上,在无损的条件下对声音至少可进行压缩,即只用25的数字量保留所有的信息,而在视频领域压缩比甚至可以达到几百倍。因而,为利用有限的资源,压缩技术从一出现便受到广泛的重视。对音频压缩技术的研究和应用由来已久,如A律、u律编码就是简单的准瞬时压扩技术,并在ISDN话音传输中得到应用。对语音信号的研究发展较早,也较为成熟,并已得到广泛应用,如自适应差分PCM(ADPCM)、线性预测编码(LPC)等技术。在广播领域,NICAM(Near Instantaneous Companded Audio Multiplex - 准瞬时压扩音频复用)等系统中都使用了音频压缩技术。一般来讲,可以将音频压缩技术分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同各种压缩技术的应用场合也相同。:
1.无损压缩:在限制发送端传输码率或存储容量前提下压缩信源速率,并尽最大限度达到高的信源逼真度。无损编码是根据统计学观点分析数据流,仅从数据量减少数据率,即编码后的数据流与编码前的输入是逐个比特相对应的。这类压缩技术从信息冗余的角度进行数据压缩,压缩后的声音质量完全不受损伤,但压缩率一般较低,通常只有一倍左右。在目前Internet应用中,比较有名的无损压缩格式有APE、FLAC、LPAC、WavPack等。
无损压缩格式,就好比用Zip或RAR这样的压缩软件去压缩音频信号,得到的压缩格式还原成WAV文件,和作为源的WAV文件是一模一样的但是如果用Zip或RAR来压缩WAV文件的话,必须将压缩包解压后才能播放。而无损压缩格式则能直接通过播放软件实现实时播放,使用起来和MP3等有损格式一模一样。总而言之,无损压缩格式就是能在不牺牲任何音频信号的前提下,减少WAV文件体积的格式。要在计算机内播放或是处理音频文件,也就是要对声音文件进行数、模转换,这个过程同样由采样和量化构成,人耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,20KHz以上人耳是听不到的,因此音频的最大带宽是20KHZ,故而采样速率需要介于4050KHZ之间,而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位16bit,即96dB的信噪比,采用线性脉冲编码调制PC
文档评论(0)