6超低速率的语音编码翻译.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
6超低速率的语音编码翻译汇编

超低速率的语音编码 M.J.Ovens, K.M.Ponting and M.E.Turner 摘要 在很多情况下,短波无线设备用于长距离或者大范围的通信。在强调短波信道的条件下, 现有的低比特率语音编码算法可支持把数据速率降低到要求以下。 本文介绍的DERA Malvern研究开发一个运用自动语音识别( ASR)和合成技术来实现语音编码数据率低于300实时语音编码系统文介绍的DERA Malvern and 20120 Speech Ltd研究开发一个运用自动语音识别( ASR)和合成技术来实现语音编码数据率低于300实时语音编码系统Markov模型迄今所目前这一代短波数据调制解调器的运作的数据传输速率高ps无差错保护编码)最近技术的发展,使得通信的数据传输速率最高可达9600,随着研究工作的现在16kbps。这些高数据传输率的调 制解调器在另一端的数据传输率的频谱,技术进步已使调制解调器相当强劲。这些调制解调器低数据传输率( 75),但提供高可用性信道。 它大致可显示调制解调器性能(即鲁棒性),是直接关系到数据传输速率,增加了在数据速率从而减少在鲁棒性渠道的条件。在大多数情况下,增加了鲁棒性将导致增加通信的可用性。因此,这是不可取的,以减少数据传输速率的要求,一数字语音系统,以增加系统可用性,如果可以这样做,同时保留可懂度。2.3传统的语音编码器其中压缩语音信号是利用已知性能的讲话,只传送信息本质内容信号。传统的基于模型的语音编码器线性预测编码或相似的分析来分离出来。两部分的信号独立编码的,这更为有效。成功广泛的LPC的语音编码方案。数据传输率低至600-800,但目前LPC的语音编码器运作2400 bps或 声音类型 音节数 发音分类 浊音 2 Bee den gon 清音 3 Pea ten key 塞擦音 2 Chin judge 双元音 2 Hay high toy hoe how here there moor 表格 1 音韵要求多余一个音节 3.2 信号处理 语音波形采用8KHz采样, 512点的窗口的快速傅氏转换(FFT),有472点采样重叠用于给出的200帧8KHz数据每秒,这些都直接为音调提取所用。语音识别每隔一定丢失的帧后,会产生一个速率为100Hz的帧。 基于对数的语音提取由每5ms语音估值和语音可信值的形成发展而来,这些信息将被编码区缓存。 3.3 语音识别 用采样率下降到100Hz的FFT表示的语音识别,由变帧率的分析进一步决定。变帧率分析的输出被转换成20个线性频率余弦系数(lfccs), 这些参数集中了语音练习和识别的的能量、变帧率数目和特征向量的特性等信息。这一阶段噪声跟踪算法也开始实现了。 语音识别器是AURIX语音有限公司连续语音识别的20/20的标准版本。它使用了定向搜索与部分追踪技术,支持编码系统最小延时得到的尽可能快的识别结果的连续操作和实时报道。追踪进程反映的是跟音节序列一样的时间信息,支持音节被观测。对于超低比特率的编码,系统被配置成前后三音节的模型以用于语音语境对声音变化的强烈影响。 为防止概念表达进行中推导过程中的干扰,已经强制添加了一些限制。所用的模型都是对训练要求的简单性的说话依赖和任务依赖,进一步说,现在的识别是间接字,就是说所识别的音节序列是局限于符合已知词汇(500单词)词时序。同样很可能字时序又局限于匹配某个语法模型识别的任务。而这些局限有系统成功操作中没有一个是固定需要的。 3.4 传输 对于每个已经识别的音节,5ms语音估测的平均值是通过所有那些语音可信度高于某个门限值的帧来计算得到的。适当的选择这些门限值是为了防止使用无声时的寄生语音音调。任何没有经过语音简单估计的音节需要从前面的音节中重新估测。 语音抽取器和识别器的输出被编码成一个十八位数的音节。每位数有三个部分,每六位中的一位反映所识别音节的类型和时间长短,这些都综合在一个音节中。现在,不管音素有没有被传送,音节都是有声的,即使音素没有在无声音节合成中用到。请注意,发声的程度来自合成模型而不是输入信号。 译码过程就不用细说了,把那十八位数据音节值、音长和音素。 3.5 合成 本合成系统是基于如图二所示的联合语音研究单元和并行共振语音合成器的。它通过模拟激励源声道的滤波效应进行工作。如何选择恰当的激励信号,取决于声音中声带振动和摩擦的数量。这种激励信号要先经过一组并行的能模拟最先三个共振峰和低频和高频频带的效果滤波器,这些滤波器的每个输出接着合成一起得出一个最终输出信号。只要给定合适的

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档