音频媒体的压缩编码.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
音频媒体的压缩编码.ppt

音频媒体的压缩编码标准与技术 本章内容 音频信号的相关概念 音频信号的基本概念;数字化方法;压缩编码的可行性与分类;声音类别与数据率… 音频信息压缩编码技术标准体系 G.7XX系列和MPEG-X系列 G.7XX声音压缩编码技术 各标准的编码方法;编/解码器等 MPEG-X声音压缩编码 语音识别 话音技术的研究热点 话音压缩编码(Speech Coding) 话音识别(Speech Recognition) 文本话音转换(Text To Speech) 4.1 音频信号 声音的产生源于物体的震动,这种震动引起物体周围气压的变化并传播,最后形成了声音。 声音是一种波,由两个参数描述: 频率:声音的尖锐程度。 振幅:声音的大小,又称响度。 音频信号是指处在20Hz~20kHz频率范围的声音。 音频频率范围 低频声音(Infra-sound): 0Hz-20Hz 人类听觉频率范围的声音: 20Hz-20kHz 高频(Ultrasound): 20kHz-1GHz 超声波(Hypersound): 1GHz-10THz 音频信号 音频信号 根据音频信号占用频谱的不同,可以将音频信号分为3类: 1.语音信号:又称话音信号,是人在正常情况下发出的一种声音,频率范围大约为300Hz~3.4KHz。 2.音乐信号:各种乐器发出的声音,频率范围大约为20Hz~20kHz。 3.噪音信号:人们不感兴趣的一类声音,通常研究如何去掉它。 4.1.1 音频信号的数字化 音频信号通常是连续信号,要利用计算机来处理,首先需要对其数字化。 音频信号的数字化 对声音信号进行采样时,一般使用音频范围的ADC(模数转换器)进行。不同的ADC主要区别于以下两个重要参数: (1)采样频率: 采样频率是指每秒钟采集声音样本的个数。它的取值应该满足Nyquist Theory,即采样频率fs应该大于等于声音信号中最高频率fm的两倍。 采样频率的单位是:Hz或samples/s。 如:数字电话的采样率为8KHz。 (2)采样精度: 采样精度用样本位数来表示。 样本位数越多,则声音质量越高,因为每个样本的量化值与原样本值越接近。 采样精度的单位是:bits/sample。 采样频率越高,采样精度越大,则数字化声音效果越好,但是需要的存储量就越大。因此在实际应用中,需要折中考虑声音质量和存储量的问题。 声音硬件: 4.1.2 音频信号压缩编码的可行性与分类 对于高质量和长时间的音频数据,由于数据量都特别大,为了有效地存储和传输,需要进行压缩编码。 压缩的可能性存在于: (1)声音信号中包含大量的冗余信息,如样本相关性、时间周期相关性、基音相关性等。 (2)利用人的感知特性进行压缩。 (3)根据话音产生机理进行压缩。 衡量语音编码性能的主要因素有: 编码质量; 编码速率; 算法复杂度。 音频信号压缩技术 音频信号压缩编码的分类 根据压缩编码思想的不同,把音频编码技术分为三类: (1)波形编码(Waveform Coding) (2)源编码(Source Coding),参数编码 (3)混合编码(Hybrid Coding) 波形编码: 没有利用语音信号自身的特点。波形编译码的想法是,不利用生成话音信号的任何知识而企图产生一种重构信号,它的波形与原始话音波形尽可能地一致。一般来说,这种编译码器的复杂程度比较低,数据速率在16 kb/s以上,质量相当高。低于这个数据速率时,音质急剧下降。如: 1.CD质量音频数据量:2x44100x16 b/s 2.电话质量音频数据量:8Kx8 b/s PCM (DPCM 56Kb/s;ADPCM 32Kb/s). 源编码(参数编码): 参数化,利用语音信号的特点进行数据压缩。音源编译码的想法是企图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。 例如:信道声码器的工作原理: 将语音信号基于语音分析原理分解成一系列频率分量,将这些分量在信道中传输。 接收方基于收到的数据进行语音重建:将收到的数据中的频率分量作为语音的基频,产生一系列脉冲作为浊音,用噪声发生器的输出作为清音。 此方法可以将语音的传输速率降低至2.4Kb/s,甚至更低 。 混合编码: 混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。

文档评论(0)

只做精品 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档