- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
音频编码原理讲解和分析
作者:谢湘勇,算法部,xie.chris@ 2007-10-13
简述 2
音频基本知识 2
采样(ADC) 3
心理声学模型原理和分析 3
滤波器组和window原理和分析 6
Window 6
TDAC:时域混叠抵消,time domain aliasing cancellation 7
Long and short window、block switch 7
FFT、MDCT 8
Setero and couple原理和分析 8
量化原理和分析 9
mp3、AAC量化编码的过程 9
ogg量化编码的过程 11
AC3量化编码的过程 11
Huffman编码原理和分析 12
mp3、ogg、AC3的编码策略 12
其他技术原理简介 13
比特池技术 13
TNS 13
SBR 13
预测模型 14
增益控制 14
OGG编码原理和过程详细分析 14
Ogg Vorbis的引入 14
Ogg Vorbis的编码过程 14
ogg心理声学模型 15
ogg量化编码的过程 16
ogg的huffman编码策略 17
主要音频格式编码对比分析 19
Mp3 19
Ogg 20
AAC 21
AC3 22
DRA(AVS内的中国音频标准多声道数字音频编码) 23
BSAC,TwinVQ 24
RA 24
音频编码格式的对比分析 25
主要格式对比表格如下 26
语音编码算法简介 26
后处理技术原理和简介 28
EQ 28
SRS WOW 29
环境音效技术(EAX) 29
3D 30
Dolby多项后处理技术 30
多声道介绍 30
简述
音频编解码目前主流的原理框图如图1,下面我希望由浅入深的对各算法原理作一说明。
音频基本知识
人类可听的音频频率范围为20-20khz
全音域可分为8度音阶(Octave)概念,每octave又可以分为12份,相当于1—7的每半音为一份(1/12 octave)
音调和噪音:音调有规律的悦耳的声音(如乐器的1—7),噪音是无规律的难听的声音。音调具有谐波分量,不同的乐器对同一音调产生不同的谐波,所以我们产生不同的感觉,这叫做音色,不同的谐波也产生了音色的好坏。音质主要定义为噪音的多少。
主要的音频编解码对象是音乐、语音,一般采用不同的编解码算法来进行编码
音频的编解码的格式分类
无压缩的格式(PCM…)
无损压缩格式(APE,FLAC,LPAC,WMA_LS…)
有损音乐压缩格式(AAC,AACPlus,AC3,DTS,ATRAC,MP3,WMA,OGG,RA…)
有损语音压缩格式(AMR, GSM, LPC, SPEEX, CELP, G.7XX, ADPCM,…)
合成算法(MIDI,TTS)
音频的编解码的目的:减少传输的信息量,减少储存的信息量
采样(ADC)
采样即将连续的信号转化为离散的量化信号,一般应用是ADC,音频编码内采样的频率一般有:fs=8k,11.025k,12k,16k,22.05k,24k,32k,44.1k,48k(hz)9种,96khz,192khz也有应用。根据奈归斯特定理,采样频率fs大于信号频率f的两倍时,可完全重构原信号,所以音域为20khz的音乐信号,一样采用fs=44.1khz采样率。
采样混叠问题,由于采样会使信号的频谱产生2π为周期的周期扩展,所以信号的频率ffs/2时,会产生混叠效应,故一般进行采样需要增加低通滤波器,使输入信号频率小于fs/2。
重采样的问题下面列出两问题作参考:
将采样率为48khz的音频信号转化为24khz的信号,请问其处理过程? 答案:先经过一低通滤波器(截止频率为π/2) ,再每两个信号抽取一个信号,产生24khz的信号.如果不进行低通滤波,则会产生混叠。
将采样率为24khz的音频信号转化为48khz的信号,请问其处理过程?答案:先每个信号后插入一个0,再经过一低通滤波器(截止频率为π/2),产生48khz的信号. 如果不进行低通滤波,则会产生原信号的映像,且最大幅度下降,增加滤波可去除映像和实现对填充的零值平滑化。
心理声学模型原理和分析
心理声学模型是研究心理与声学的相关性,目前的主要研究成果是,
低于一定频率或高于一定频率我们无法听到,一般人可听范围为(20hz-20khz)
人的耳朵对在低于一定的声压级或高于一定的声压级的声音,我们无法听到,而最低的可听声压级,被称为绝对听觉阈值曲线
绝对听觉曲线近似方程:
对不同频率同一声压级的声音人感觉的声音响度是不同的,同时不同年龄的人对同一声音其感觉的响度也会不同,小孩对低频和高频的感受能力都比老人要强烈很多。这里声音的实际能量大小我们定义为声压级,人感觉的声音大小我们定义为响度。通常人对1k-4khz的声音感觉最敏感,而人的语音也大部分集
文档评论(0)