3音频处理技术2.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3音频处理技术2

第二章 音频处理技术(二) 要点 1. MP3编码 2.环绕立体声 MPEG声音 MPEG Audio压缩编码算法基于声音的三个特性: 响度的感知 音高的感知 掩蔽效应 对响度的感知 1 kHz的10 dB的声音和200 Hz的30 dB的声音,在人耳听起来具有相同的响度。 人耳对不同频率的敏感程度差别很大,其中对2 kHz~4 kHz范围的信号最为敏感 图01 “听阈—频率”曲线 对音高的感知 测量主观音高时,让实验者听两个声强级为40 dB的纯音,固定其中一个纯音的频率,调节另一个纯音的频率,直到他感到后者的音高为前者的两倍,就标定这两个声音的音高差为两倍。音高与频率之间也不是线性关系。 图2 “音高—频率”曲线 掩蔽效应 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。 前者称为掩蔽声音(masking tone), 后者称为被掩蔽声音(masked tone)。 掩蔽可分成频域掩蔽和时域掩蔽。 一个声强为60 dB、频率为1000 Hz的纯音,另外还有一个1100 Hz的纯音,前者比后者高18 dB,在这种情况下我们的耳朵就只能听到那个1000 Hz的强音。 声强为60 dB、频率为1000 Hz纯音的掩蔽效应 频域掩蔽 在250 Hz、1 kHz、4 kHz和8 kHz纯音附近,对其他纯音的掩蔽效果最明显 不同纯音的掩蔽效应曲线 频域掩蔽 时域掩蔽 时域掩蔽又分为超前掩蔽(pre-masking)和滞后掩蔽(post-masking)产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。超前掩蔽很短,只有大约5~20 ms,而滞后掩蔽可以持续50~200 ms。 由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了“临界频带(critical band)”,在20 Hz到16 kHz范围内有24个临界频带。 临界频带 MPEG编码器的输入信号为线性PCM信号,采样率为32, 44.1或48 kHz,输出为32 kb/s~384 kb/s。 MPEG编码器的输入/输出 MPEG-1Audio的主要性能 MPEG Audio的三个压缩层次 层1的编码器最为简单,编码器的输出数据率为384 kb/s,主要用于小型数字盒式磁带(digital compact cassette,DCC)。 层2的编码器的复杂程度属中等,编码器的输出数据率为256 kb/s~192 kb/s,其应用包括数字广播声音(digital broadcast audio,DBA)、数字音乐、CD-I(compact disc-interactive)和VCD(video compact disc)等。 层3的编码器最为复杂,编码器的输出数据率为64 kb/s,主要应用于ISDN上的声音传输。 MPEG声音的压缩率 MPEG编码解码器的延迟时间 三个层次的基本指标 MP3编码框图 MPEG Audio具体思想是首先把时域中的声音数据变换到频域,对频域内的子带分量分别进行量化和编码,然后根据心理声学模型确定样本的精度,从而达到压缩数据量的目的。 编码步骤 输入声音信号经过一个“时间-频率多相滤波器组”变换到频域里的多个子带中。 输入声音信号同时经过“心理声学模型(计算掩蔽特性)”,该模型计算以频率为自变量的噪声掩蔽阈值(masking threshold),查看输入信号和子带中的信号以确定每个子带里的信号能量与掩蔽阈值的比率。 “量化和编码”部分用信掩比(signal-to-mask ratio,SMR)来决定分配给子带信号的量化位数,使量化噪声低于掩蔽阈值。 最后通过“数据流帧包装”将量化的子带样本和其他数据按照规定的称为“帧(frame)”的格式组装成位数据流。 多相滤波器组 用来分割子带也就是时间-频率变换部件是一个多相滤波器组。在MPEG-1中,多相滤波器组是MPEG声音压缩的关键部分部件之一,它把输入信号变换到32个频域子带中去。 MPEG的声音数据分成帧(frame),层1每帧包含384个样本的数据,每帧由32个子带分别输出的12个样本组成。层2和层3每帧为1152个样本。 层1、2和层3的子带样本 数据帧 MPEG-2 Audio MPEG-2标准委员会定义了两种声音数据压缩格式: 一种称为MPEG-2 Audio,或者称为MPEG-2多通道(Multichannel)声音,因为它与MPEG-1 Audio是兼容的,所以又称为MPEG-2 BC (Backward Compatible)。 另一种称为MPEG-2 AAC (Advanced Audio Coding),因为它与MPEG-1声音格式不兼容,因此通常称为非后向兼容MPEG-2 NBC(No

文档评论(0)

peain + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档