话音编码.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
话音编码.pdf

第3章 话音编码 Page 1 of 20 第3章 话音编码 随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送话音信号 的质量,除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。另一个 可说明话音数据压缩的重要性的例子是,用户无法使用28.8 kb/s的调制解调器来接收因特网 上的64 kb/s话音数据流,这是一种单声道、8位/样本、采样频率为8 kHz的话音数据流。 ITU-TSS为此制定了并且继续制定一系列话音(speech)数据编译码标准。其中,G.711使用 率 μ 和A率压缩算法,信号带宽为3.4 kHz,压缩后的数据率为64 kb/s;G.721使用ADPCM压缩算 法,信号带宽为3.4 kHz,压缩后的数据率为32 kb/s;G.722使用ADPCM压缩算法,信号带宽 为7 kHz,压缩后的数据率为64 kb/s。在这些标准基础还制定了许多话音数据压缩标准,例 如G.723,G.723.1,G.728,G.729和G.729.A等。 本章将重点介绍话音编码的基本思想,而详细计算则留给那些开发和具体设计编译码器 软硬件的读者去研究,并可从本章所列的参考文献和站点中找到你满意的文献资料。 3.1 话音编码概要 3.1.1 话音波形的特性 了解话音波形的基本特性对声音数据的压缩编码、声音的识别和文本-声音的转换等都有 很重要的意义。 当肺部中的受压空气沿着声道通过声门发出时就产生了话音。普通男人的声道从声门到 嘴的平均长度约为17厘米,这个事实反映在声音信号中就相当于在1 ms数量级内的数据具有 相关性,这种相关称为短期相关(short-term correlation)。声道也被认为是一个滤波器, 这个滤波器有许多共振峰,这些共振峰的频率受随时间变化的声道形状所控制,例如舌的移 动就会改变声道的形状。许多话音编码器用一个短期滤波器(short term filter)来模拟声 道。但由于声道形状的变化比较慢,模拟滤波器的传递函数的修改不需要那么频繁,典型值 在20 ms左右。 压缩空气通过声门激励声道滤波器,根据激励方式不同,发出的话音分成三种类型:浊 音(voiced sounds),清音(unvoiced sounds)和爆破音(plosive sounds)。 1.浊音 浊音是一种称为准周期脉冲(quasi-periodic pulses)激励所发出的音,这种准周期脉冲 是在声门打开然后关闭时中断肺部到声道的气流所产生的脉冲。声门打开和关闭的速率呈现 为音节(pitch)的大小,它的速率可通过改变声道的形状和空气的压力来调整。浊音表现出在 音节上有高度的周期性,其值在2~20 ms之间,这个周期性称为长期周期性(long-term periodicity)。图3-01表示了某一浊音段的波形,音节周期大约8 ms。这一浊音段的功率谱 密度(power spectral density,PSD)如图3-02所示。 图3-01 浊音段的波形举例 file://D:\Work\本科教学课程\多媒体技术\多媒体技术基础_林福宗\第3章 ... 2009-1-31 第3章 话音编码 Page 2 of 20 图3-02 浊音段的功率普密度举例 2. 清音 清音是由不稳定气流激励所产生的,这种气流是在声门处在打开状态下强制空气在声道 里高速收缩产生的,如图3-03所示。这一清音段的功率谱密度PSD和图3-04所示。

文档评论(0)

dlmus + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档