第3章 话音编码.doc

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章话音编码第3章话音编码

第3章 话音编码 随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送话音信号的质量,除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。另一个可说明话音数据压缩的重要性的例子是,用户无法使用28.8 kb/s的调制解调器来接收因特网上的64 kb/s话音数据流,这是一种单声道、8位/样本、采样频率为8 kHz的话音数据流。ITU-TSS为此制定了并且继续制定一系列话音(speech)数据编译码标准。其中,G.711使用μ率和A率压缩算法,信号带宽为3.4 kHz,压缩后的数据率为64 kb/s;G.721使用ADPCM压缩算法,信号带宽为3.4 kHz,压缩后的数据率为32 kb/s;G.722使用ADPCM压缩算法,信号带宽为7 kHz,压缩后的数据率为64 kb/s。在这些标准基础还制定了许多话音数据压缩标准,例如G.723,G.723.1,G.728,G.729和G.729.A等。本章将重点介绍话音编码的基本思想,而详细计算则留给那些开发和具体设计编译码器软硬件的读者去研究,并可从本章所列的参考文献和站点中找到你满意的文献资料。 3.1 话音编码概要 3.1.1 话音波形的特性 -声音的转换等都有很重要的意义。 17厘米,这个事实反映在声音信号中就相当于在1 ms数量级内的数据具有相关性,这种相关称为短期相关(short-term correlation)。声道也被认为是一个滤波器,这个滤波器有许多共振峰,这些共振峰的频率受随时间变化的声道形状所控制,例如舌的移动就会改变声道的形状。许多话音编码器用一个短期滤波器(short term filter)来模拟声道。但由于声道形状的变化比较慢,模拟滤波器的传递函数的修改不需要那么频繁,典型值在20 ms左右。 (voiced sounds),清音(unvoiced sounds)和爆破音(plosive sounds)。 1.(quasi-periodic pulses)激励所发出的音,这种准周期脉冲是在声门打开然后关闭时中断肺部到声道的气流所产生的脉冲。声门打开和关闭的速率呈现为音节(pitch)的大小,它的速率可通过改变声道的形状和空气的压力来调整。浊音表现出在音节上有高度的周期性,其值在2~20 ms之间,这个周期性称为长期周期性(long-term periodicity)。图3-01表示了某一浊音段的波形,音节周期大约8 ms。这一浊音段的功率谱密度(power spectral density,PSD)如图3-02所示。 3-01 浊音段的波形举例 3-02 浊音段的功率普密度举例 2. 3-03所示。这一清音段的功率谱密度PSD和图3-04所示。 3-03 清音段的波形举例 3-04 清音段的功率谱密度举例 3. 某些音不能归属到上述三种音中的任何一种,例如在声门振动和声道收缩同时出现的情况下产生的摩擦音,这种音称为混合音。 虽然各种各样的话音都有可能产生,但声道的形状和激励方式的变化相对比较慢,因此话音在短时间周期(20 ms的数量级)里可以被认为是准定态(quasi-stationary)的,也就是说基本不变的。从图3-01, -02, -03和-04中可以看到话音信号显示出的高度周期性,这是由于声门的准周期性的振动和声道的谐振所引起的。话音编码器就是企图揭示这种周期性,目的是为了减少数据率而又尽可能不牺牲声音的质量。 3.1.2 三种话音编译码器 (waveform codecs),音源编译码器(source codecs)和混合编译码器(hybrid codecs)。一般来说,波形编译码器的话音质量高,但数据率也很高;音源编译码器的数据率很低,产生的合成话音的音质有待提高;混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。图3-05表示了目前这三种编译码器的话音质量和数据率的关系。 3-05 普通编译码器的音质与数据率 1. 波形编译码器 16 kb/s以上,质量相当高。低于这个数据速率时,音质急剧下降。 (pulse code modulation,PCM),它仅仅是对输入信号进行采样和量化。典型的窄带话音带宽限制在4 kHz,采样频率是8 kHz。如果要获得高一点的音质,样本精度要用12位,它的数据率就等于96 kb/s,这个数据率可以使用非线性量化来降低。例如,可以使用近似于对数的对数量化器(logarithmic quantizer),使用它产生的样本精度为8位,它的数据率为64 kb/s时,重构的话音信号几乎与原始的话音信号没有什么差别。这种量化器在20世纪80年代就已经标准化,而且直到今天还在广泛使用。在北美的压扩(companding)标准是μ律(μ-law

文档评论(0)

cxiongxchunj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档