- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4.5语音压缩编码.ppt
4.5 语音压缩编码 ; 并且仅传送反映波形变化的主要参量,在接收端根据语音产生过程,利用这些参量恢复语音。它又称为声码器,其主要度量指标是可懂度。混合编码则介于波形编码与参量编码之间,即在参量编码的基础上,引入了波形编码的特征,以达到改善自然度的目的,因此,它一般也称混合编码为软声码器。由于语音信源是属于连续的限失真信源,可以根据R(D)函数理论探讨波形编码的理论压缩极限。 ?
; 由信息论可知,若要语音基本达到公用网入网信噪比标准,且大于26dB,那么理论压缩倍数大约为3.4,若进一步考虑到实际语音分布和主观因素影响后,大约为4倍左右。对于参量编码,度量其质量的指标不再是保真度,而是可懂度。若不考虑讲话人音质和情绪等因素,仅从可懂度出发,在理论上,语音最低信息率大约为70~80 b/s。它与目前常用的PCM语音64 kb/s相比,理???压缩比大约为800~900倍。限于篇幅本节只讨论语音压缩编码的基本原理。 ?
?
; 4.5.1 波形编码基本原理
自适应差分脉码调制(ADPCM)是在差分脉码调制(DPCM)的基础上发展起来的。DPCM根据信号的过去样值预测下一个样值,并将预测误差加以量化、编码,而后进行传输,由于预测误差的幅度变化范围小于原信号的幅度变化范围,因此在相同量化噪声条件下,DPCM的量化比特数小于PCM,从而达到语音压缩编码的目的。ADPCM与DPCM比较,两者主要区别在于ADPCM中的量化器和预测器采用了自适应控制。同时,在译码器中多了一个同步编码调整,其作用是为了在同步级连时不产生误差积累。 ?; 20世纪80年代以来,32kb/sADPCM技术已日趋成熟,并接近PCM的质量,但却节省一半的信道容量,因而受到重视。1984年CCITT提出G721建议,采用动态锁定量化器,这是一种具有自适应速度控制32kb/s的自适应量化器,并将它作为国际标准化的语音编码方法。1986年又对G721建议进行了修正,称G726建议,详细内容请参见相关的文献。
; 4.5.2 参量编码
参量编码的出发点在于跟踪波形的产生过程,而不是传输波形本身。它传递的是反映这一变化过程的参量。根据线性预测原理,语音信号可用一系列预测变化的参量和其他与变化有关的参量来表征。在接收端,收到的这些语音参量通过一个时变数字滤波器,它根据发声原理合成原来的语音。称实现参量编码的编码器为语音编码器或声码器。所谓声码器,就是在充分研究音发音系统特点的基础上,设法提取语音信号的要素。 ; 这样就可以只传送这些要素而不再传送语音信号的波形。在接收端利用这些要素重建语音信号,称为合成语音。只要这些要素选择得恰当,所需码率就可很小而仍能保持良好的语音质量。现在简要地说明人的发音过程。当人发声时,空气由肺部排出,在声带间受压而使声带振动,振动频率由声带的张力和声带的厚度等因素所决定,因而因人、内容而异。压出的气流强弱决定声音的强度。该气流经过由口腔等组成的声道时而被调制,形成不同的音色。声道包括口腔中的舌、齿、唇等,发鼻音时还要利用鼻腔。 ; 以上均指发浊音和母音的情况。当发清音时,声带只有收缩和放开,不作周期性振动;发爆破音时,主要靠唇部动作,也属于清音类型。
实际发声过程当然要比上述过程复杂得多,最常用的简化原理图如图4―3所示。
;图4―3 语音产生模型 ; 图4―3中,u(n)是波形产生的激励参量,c(n)是输出的语音。激励分为两种:A路是发浊音或母音时的情况,可用周期性信号来代表,其周期大小和强度可随时调整;B路是发清音时的情况,可用近似于白噪声的随机信号来代表。图中的双掷开关表示发音不同时可上、下转换。滤波部分一般用线性滤波器来近似地代表声音在声道中被调制的过程。而线性时变滤波器的系数可以通过线性预测等技术获得。在一般情况下需要有12个系数{ai}(i=1,2,…,12)。 ; 此外,还有三个重要参量即音调(基音)周期P、清浊音判决u/v和代表语音强弱的增益参量G。可见,语音信号中所包含的主要信息就由这15个参量所决定。通过对每帧语音进行分析求出这15个参量,然后将它们量化、编码传送给收端。接收端用收到的这15个参量和发声模型,综合、复制出语音信号。这里线性时变滤波器的系数由收到的12个参量{ai},i=1,2,…,12控制,激励器幅度受到增益G的控制。具体采用哪一类信号源则由收到的清浊音u/v来决定。发清音时,激励为伪随机的白噪声源,发浊音时,激励为基音周期控制的准周期脉冲源。采用这种编码方式进行语音有效传输的系统称为线性预测器(LPC)。 ?; 线性预
文档评论(0)