第3章 话音编码.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 3 章 话音编码 随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送话音信号的质量,除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。另一个可说明话音数据压缩的重要性的例子是,用户无法使用28.8 kb/s 的调制解调器来接收因特网上 的 64 kb/s 话音数据流,这是一种单声道、8 位/样本、采样频率为 8 kHz 的话音数据流。ITU-TSS 为此制定了并且继续制定一系列话音(speech)数据编译码标准。其中,G.711 使用μ率和A 率压缩算法,信号带宽为 3.4 kHz,压缩后的数据率为 64 kb/s;G.721 使用ADPCM压缩算法,信号带宽为 3.4 kHz,压缩后的数据率为 32 kb/s;G.722 使用ADPCM 压缩算 法,信号带宽为 7 kHz,压缩后的数据率为 64 kb/s。在这些标准基础还制定了许多话音数据压缩标准,例如G.723,G.723.1,G.728,G.729 和 G.729.A 等。本章将重点介绍话音编码的基本思想,而详细计算则留给那些开发和具体设计编译码器软硬件的读者去研究,并可从本章所列的参考文献和站点中找到你满意的文献资料。 话音编码概要 话音波形的特性 了解话音波形的基本特性对声音数据的压缩编码、声音的识别和文本-声音的转换等都有很重要的意义。 当肺部中的受压空气沿着声道通过声门发出时就产生了话音。普通男人的声道从声门到嘴的 平均长度约为 17 厘米,这个事实反映在声音信号中就相当于在1 ms 数量级内的数据具有相关性,这种相关称为短期相关(short-term correlation)。声道也被认为是一个滤波器,这个滤波器有许多共振峰,这些共振峰的频率受随时间变化的声道形状所控制,例如舌的移动 就会改变声道的形状。许多话音编码器用一个短期滤波器(short term filter)来模拟声道。但由于声道形状的变化比较慢,模拟滤波器的传递函数的修改不需要那么频繁,典型值在 20 ms 左右。 压缩空气通过声门激励声道滤波器,根据激励方式不同,发出的话音分成三种类型:浊音 (voiced sounds),清音(unvoiced sounds)和爆破音(plosive sounds)。 浊音 浊音是一种称为准周期脉冲(quasi-periodic pulses)激励所发出的音,这种准周期脉冲是在声门打开然后关闭时中断肺部到声道的气流所产生的脉冲。声门打开和关闭的速率呈现为音节(pitch)的大小,它的速率可通过改变声道的形状和空气的压力来调整。浊音表现出在音节上有高度的周期性,其值在2~20 ms 之间,这个周期性称为长期周期性 (long-term periodicity)。图 3-01 表示了某一浊音段的波形,音节周期大约8 ms。这一浊音段的功率谱密度(power spectral density,PSD)如图 3-02 所示。 图 3-01 浊音段的波形举例 图 3-02 浊音段的功率普密度举例 清音 清音是由不稳定气流激励所产生的,这种气流是在声门处在打开状态下强制空气在声道里高速收缩产生的,如图 3-03 所示。这一清音段的功率谱密度PSD 和图 3-04 所示。 图 3-03 清音段的波形举例 图 3-04 清音段的功率谱密度举例 爆破音 爆破音是在声道关闭之后产生的压缩空气然后突然打开声道所发出的音。 某些音不能归属到上述三种音中的任何一种,例如在声门振动和声道收缩同时出现的情况下产生的摩擦音,这种音称为混合音。 虽然各种各样的话音都有可能产生,但声道的形状和激励方式的变化相对比较慢,因此话音在短时间周期(20 ms 的数量级)里可以被认为是准定态(quasi-stationary)的,也就是说基本不变的。从图 3-01, -02, -03 和-04 中可以看到话音信号显示出的高度周期性,这是由于声门的准周期性的振动和声道的谐振所引起的。话音编码器就是企图揭示这种周期性,目的是为了减少数据率而又尽可能不牺牲声音的质量。 三种话音编译码器 通常把已有的话音编译码器分成以下三种类型:波形编译码器(waveform codecs),音源编译码器(source codecs)和混合编译码器(hybrid codecs)。一般来说,波形编译码器的话音质量高,但数据率也很高;音源编译码器的数据率很低,产生的合成话音的音质有待提高; 混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。图 3-05 表示了目前这三种编译码器的话音质量和数据率的关系。 图 3-05 普通编译码器的音质与数据率 波形编译码器 波形编译码的想法是,不利用生成话音信号的任何知识而企图产生一种重构信号,它的波形与原始话音波形尽可能地一致。一

文档评论(0)

hao187 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体武汉豪锦宏商务信息咨询服务有限公司
IP属地上海
统一社会信用代码/组织机构代码
91420100MA4F3KHG8Q

1亿VIP精品文档

相关文档