音频媒体的压缩编码.pptVIP

下载本文档

5
0
约2.15万字
约 90页
2015-12-30 发布于湖北
举报
版权申诉

音频媒体的压缩编码.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

音频媒体的压缩编码.ppt

音频媒体的压缩编码标准与技术本章内容音频信号的相关概念音频信号的基本概念；数字化方法；压缩编码的可行性与分类；声音类别与数据率… 音频信息压缩编码技术标准体系 G.7XX系列和MPEG-X系列 G.7XX声音压缩编码技术各标准的编码方法；编/解码器等 MPEG-X声音压缩编码语音识别话音技术的研究热点话音压缩编码（Speech Coding）话音识别（Speech Recognition）文本话音转换（Text To Speech） 4.1 音频信号声音的产生源于物体的震动，这种震动引起物体周围气压的变化并传播，最后形成了声音。声音是一种波，由两个参数描述：频率：声音的尖锐程度。振幅：声音的大小，又称响度。音频信号是指处在20Hz～20kHz频率范围的声音。音频频率范围低频声音(Infra-sound)： 0Hz－20Hz 人类听觉频率范围的声音： 20Hz－20kHz 高频(Ultrasound)： 20kHz－1GHz 超声波(Hypersound)： 1GHz－10THz 音频信号音频信号根据音频信号占用频谱的不同，可以将音频信号分为3类： 1.语音信号：又称话音信号，是人在正常情况下发出的一种声音，频率范围大约为300Hz～3.4KHz。 2.音乐信号：各种乐器发出的声音，频率范围大约为20Hz～20kHz。 3.噪音信号：人们不感兴趣的一类声音，通常研究如何去掉它。 4.1.1 音频信号的数字化音频信号通常是连续信号，要利用计算机来处理，首先需要对其数字化。音频信号的数字化对声音信号进行采样时，一般使用音频范围的ADC（模数转换器）进行。不同的ADC主要区别于以下两个重要参数：（1）采样频率：采样频率是指每秒钟采集声音样本的个数。它的取值应该满足Nyquist Theory，即采样频率fs应该大于等于声音信号中最高频率fm的两倍。采样频率的单位是：Hz或samples/s。如：数字电话的采样率为8KHz。（2）采样精度：采样精度用样本位数来表示。样本位数越多，则声音质量越高，因为每个样本的量化值与原样本值越接近。采样精度的单位是：bits/sample。采样频率越高，采样精度越大，则数字化声音效果越好，但是需要的存储量就越大。因此在实际应用中，需要折中考虑声音质量和存储量的问题。声音硬件： 4.1.2 音频信号压缩编码的可行性与分类对于高质量和长时间的音频数据，由于数据量都特别大，为了有效地存储和传输，需要进行压缩编码。压缩的可能性存在于：（1）声音信号中包含大量的冗余信息，如样本相关性、时间周期相关性、基音相关性等。（2）利用人的感知特性进行压缩。（3）根据话音产生机理进行压缩。衡量语音编码性能的主要因素有：编码质量；编码速率；算法复杂度。音频信号压缩技术音频信号压缩编码的分类根据压缩编码思想的不同，把音频编码技术分为三类：（1）波形编码（Waveform Coding）（2）源编码（Source Coding）,参数编码（3）混合编码（Hybrid Coding）波形编码：没有利用语音信号自身的特点。波形编译码的想法是，不利用生成话音信号的任何知识而企图产生一种重构信号，它的波形与原始话音波形尽可能地一致。一般来说，这种编译码器的复杂程度比较低，数据速率在16 kb/s以上，质量相当高。低于这个数据速率时，音质急剧下降。如： 1.CD质量音频数据量：2x44100x16 b/s 2.电话质量音频数据量：8Kx8 b/s PCM (DPCM 56Kb/s;ADPCM 32Kb/s). 源编码(参数编码)：参数化，利用语音信号的特点进行数据压缩。音源编译码的想法是企图从话音波形信号中提取生成话音的参数，使用这些参数通过话音生成模型重构出话音。例如：信道声码器的工作原理：将语音信号基于语音分析原理分解成一系列频率分量，将这些分量在信道中传输。接收方基于收到的数据进行语音重建：将收到的数据中的频率分量作为语音的基频，产生一系列脉冲作为浊音，用噪声发生器的输出作为清音。此方法可以将语音的传输速率降低至2.4Kb/s，甚至更低。混合编码：混合编译码器使用音源编译码技术和波形编译码技术，数据率和音质介于它们之间。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。