- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音编解码技术简述
语音编解码技术简述
摘要:目前,在诸多实际应用的通信系统中,语音编解码技术被广泛使用于系统的终端电路中,以完成语音的转换和还原。文章从当前通信领域应用的语音编解码技术的原理层次上做一简单归纳和分析,并介绍了语音编码器的性能指标和语音压缩国际标准G.711。
关键词:波形编码;语音编码器;G.711
一、语音的数字化过程
语音的数字化过程是语音传输的基础,是把模拟的语音信号转化为可控制的数字信号的过程.其主要操作是将模拟音频信号每隔一定时间间隔截取一段,并将所截取的信号振幅转换成由一组二进制序列表示的离散序列,即数字音频序列。在这一处理过程中,涉及到对模拟音频信号的采样、量化和编码。
(一)取样过程
模拟音频信号是一个在时间上和幅值上都连续的函数f(t)。取样的过程就是在时间上将函数f(t)离散化的过程。一般的取样是按均匀的时间间隔进行的。设这一时间间隔为T,则取样后的信号为f(kt),k为自然数。根据奈奎斯特定理可知,如果音频信号f(t)是一个限带信号,它的最高频率分量为f.,则当t1/(2f.)时,可以从离散的flyn中不失真地恢复出原来的信号f(t)。由于人耳能听到的声音的频率范围大致在20Hz-20kHz,因此声音的质量与音频信号的频谱范围以及采样时间间隔有关。
目前常见的音频信号的频率范围大致如下:电话为200Hz-3.4kHz,调幅广播为50Hz~7kHz,调频广播为20Hz~15kHz,高保真音频信号为20Hz~20kHz。因此音频取样频率一般定在8~48kHz范围内。常用的音频取样频率如表2-1所示:
从表 2-1中可以看出,取样频率越高,数字化后的音频质量越高,存储量也越大,所以使用哪种取样频率要兼顾语音质量和信道容量。
若系统选用的是成本低廉,应用率广的8051系列单片机作为DSP,由于其主频只有33MHz。考虑到尽量避免数据量过多,采用8kHz取样频率和8bit的量化精度来处理语音数据,这样处理出来的数据的码率为8kHz×8bit=64kbps。若用更高速的单片机、DSP或ARM,可以选用更快取样频率很更高量化精度的语音处理方法。
(二)量化过程
量化过程是将取样值在幅度上再进行离散化处理的过程。所有的取样值可能出现的范围被划分成有限多个小阶距(量化步长)的集合,把凡是落入某个量化阶距内的取样值都赋予相同的值,即量化值。通常这个量化值是用二进制来表示的。如果量化阶距是相同的,或者说是量化值的分布是均匀的,称之为均匀量化,否则称为非均匀量化。
(三)编码过程
模拟音频信号经过取样、量化后,就要进行编码,即用二进制数表示每个取样的量化值。如果取样值既采取均匀量化,又采取自然二进制表示,这种编码方法就是脉冲编码调制PCM(Pulse Code Modulation). PCM是一种最简单、最方便的编码方法。经过编码后的数字信号就是数字音频信号。由于PCM是一种未经过压缩的数字音频信号,因此常常将它作为与其他编码进行比较的一种参考信号。
表示取样值的二进制的位数为量化位数,它反映各取样值的精度,如4位能表示取样值的16个等级,8位能反映256个等级,其精度为音频信号最大振幅的11256。量化位数越多,量化值越接近于取样值,其精度越高,但要求的信息存储量越大。声音信息的通道数值将取样值记录为一组波形(单声道)还是两组波形(双声道)甚至更多组波形(多声道)。取样值存储量可用下式表示:v= f×B×s/ 8
式中,v为取样值存储量(bit/s),f为取样频率(kHz),B为量化位数(bit),s为声道数。
二、语音编解码技术
(一)语音编码压缩技术的分类
语音压缩需要在保持可懂度、音质、限制码率及降低编码过程的计算代价这三个方面进行折衷。电话质量的语音压缩技术大致分成两类:一是尽量保持输入波形不变,即重建的语音信号基本上与原始语音信号波形相同,压缩比较低,这种方法称为波形编码;二是要求重建的信号听起来与输入语音一样,但其波形可以不同,它是以语音信号所产生的数学模型为基础的一种编码方法,压缩比较高,称为参数编码。现在出现了综合波形编码的高质量潜力和参数编码的高压缩效率的混合编码的第三类方法,它己成为目前低码率编码的发展方向。
各种语音信息的压缩处理都是在PCM编码的基础上进行的,因此首先需获得PCM的编码数据,这一过程称为预处理,然后编码器再对这些数据进行压缩编码运算。
(二)波形编码
波形编码就是根据语音信号波形导出相应的数字编码形式,它会尽可能构造出包括背景噪声在内的模拟波形、输出信号的波形和相位跟踪输入信号。波形编码的语音信息是波形,编码率在
文档评论(0)