第2章--数字音频处理课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.5.1文本-语音TTS技术 TTS的应用领域 文语转换在各种计算机相关领域中有着广泛的应用前景。除了人-机交互外,TTS系统在医疗、教育、通信、信息、家电等领域也具有相当广泛的用途。 * 2.5.2语音识别系统 语音识别是指从语音到文本的转换,即让计算机能够把人发出的有意义的话音变成书面语言。通俗地说就是让机器能够听懂人说的话。 所谓听懂,有两层意思 一、是指把用户所说的话逐词逐句转换成文本; 二、是指正确理解语音中所包含的要求,作出正确应答。 * 2.5.2语音识别系统 预处理 特征提取 参考模式 模式匹配 判决规则 语音信号 识别结果 训练 识别 不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图所示。 * 2.5.2语音识别系统 上面三款产品分别是Qrobot、Karotz和Kinect。 这三款娱乐产品中都应用了语音识别技术,其中最为知名的是微软的Kinect,它支持英语和日语两种语言输入,可以实现游戏的开启、退出、跳换以及游戏角色的控制。Kinect语音识别技术中最大的亮点是它能够有效地避免噪音的干扰和识别出特定玩家的语音。为了实现这些,kinect上安装有三个麦克风,同时还有专门的软件来配合摄像头准确识别玩家的位置。 * 2.5.2语音识别系统 微软在它应用更多的Windows 7操作系统中同样内置了语音识别功能。 * Android能够在智能手机领域取得绝对领先的优势,很大程度上得益于它能够支持更多有趣、实用的应用。 Google的竞争对手苹果当然也不甘落后,iPhone 4不仅能支持中文,甚至连广东话也不冷落。只可惜苹果的语音控制的能力还是弱了点,只能语音控制拨打电话和播放音乐。 * 最新的语音识别研究不仅仅限于单纯的语音信号的分析,而是结合面部识别来更加精确地分析用户所传递的信息(Audio Visual Speech Technologies)。 * 增量调制编码过程示意图 * 问题1:斜率过载 当语音信号大幅度发生变化时,阶梯波形的上升或下降有可能跟不上信号的变化,因而产生滞后,这种失真称为“过载失真”。在斜率过载期间的码字将是一连串的0或者一连串的1。 * 为避免斜率过载,要求阶梯波的上升或下降的斜率必须大于或等于语音信号的最大变化斜率。 * 当话音信号不发生变化或者变化很缓慢时,预测误差信号将等于零或具有很小的绝对值,在这种情况下,编码为0和1交替出现的序列。这样,在解码器中所得到的是等幅脉冲序列,这样形成的噪声称为颗粒噪声。 问题2:颗粒噪声 * * 为了减少颗粒噪声,希望使输出编码1位所表示的量化阶距小一些。 但是,减少量化阶距会使在固定采样速度下产生更严重的斜率过载。为了解决这些矛盾,促使人们研究出了自适应增量调制(ADM)方法。 分析 * 2.3.2编码方法 在ADM中,常用的规则有两种: 一种是控制可变因子M,使量化阶距在一定范围内变化。对于每一个新的采样,其量化阶距为其前面数值的M倍。而M的值则由输入信号的变化率来决定。 如果出现连续相同的编码,则说明有发生过载的危险,这时就要加大M。当0、1信号交替出现时,说明信号变化很慢,会产生颗粒噪声,这时就要减少M值。其典型的规则为: 自适应增量调制(ADM) * 2.3.2编码方法 另一类使用较多的自适应增量调制称为可变斜率增量调制。 其工作原理如下:如果调制器连续输出三个相同的码,则量化阶距加上一个大的增量,也就是说,三个连续相同的码表示有过载发生。反之,则量化阶距增加一个小的增量。 * 2.3.2编码方法 可变斜率增量的自适应规则为: 式中,可在0~1之间取值。可以看到,斜率增量的大小可以通过调节增量调制来适应输入信号变化所需时间的长短。P和Q为增量,而且P要大于等于Q。 * 2.3.2编码方法 PCM编码是对连续语音信号进行空间采样、幅度量化及用适当码字将其编码的总称。 PCM是一种最通用的无损压缩编码,其特点是保真度高,解码速度快,但编码后的数据量大。CD-DA就是采用的这种编码方式。PCM方法可以按量化方式的不同,分为均匀量化PCM、非均匀量化PCM和自适应量化PCM等几种。 脉冲编码调制PCM * 2.3.2编码方法 差分脉冲编码调制DPCM 差分脉冲编码调制的中心思想是对信号的差值而不是对信号本身进行编码。这个差值是指信号值与预测值的差值。预测值可以由过去的采样值进行预测,其计算公式如下所示: * 2.3.2编码方法 式中为预测系数。因此,利用若干个前面的采样值可以预测当前值。当前值与预测值的差为: 差分脉冲编码调制就是将上述每

文档评论(0)

哆啦 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档