语音识别技术..pptVIP

  • 74
  • 0
  • 约8.84千字
  • 约 47页
  • 2016-12-15 发布于重庆
  • 举报
讲解重点: 1. 语音识别的重要性 2. 语音识别的定义、原理和分类 3. 语音识别的历史回顾 4. 语音信号处理简介 5. 语音技术概述 1语音识别的重要性 语音信息处理 语音识别是一项具有巨大应用推广前景的工程 主要先进国家都将此工程列为国家级研究项目 微软:让计算机能说会听 IBM:ViaVoice仍居主流 Intel:做语音技术倡导者 2.1语音识别的定义 音韵信息与音律信息 2.2 语音识别的基本原理 语音识别原理框图 2.3 语音识别的分类 按识别器的类型: 按识别器对使用者的适应情况: 按语音词汇表的大小: 3.1 国外语音识别研究的历史(1) 3.2 我国语音识别研究的历史 国外70年代所取得的实质性的进展 国外80年代所取得的重大进展 国外90年代所取得的实质性的进展 70年代美国DARPA(美国国防部高级计划局)计划 我国的语音识别技术的发展 4 语音信号处理简介 语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。 日本索尼自2000年发布SDR-XX系列机器人以来早已发展了多个系列的产品供消费者购买,以QRIO娱乐机器人系列为例,此机器人装备视角,听觉,语音系统,距离感应器,压力感应器,角速度感应器,加速感应器,负重感应器,脸形识别系统,置3个CPU,无线网卡,全身一共有38个可活动的关节,从YouTobe上的演示录像介绍来看可通过网络控制机器人,能够与人进行一些简单语音交流并具有学习记忆功能,机器人跳一些高难度的舞蹈动作,能凹凸不平的路面及倾斜路面上行走,在倾斜度不断变化的冲浪板上保持站立姿势,从跌倒的状态站立起来等. 索尼QRIO——世界首台会跑的双足机器人   索尼开发出了会跑的双足行走机器人“QRIO”。据索尼介绍,此前世界上没有可以在不接触地面的状态下行走的机器人。?   此次开发的双足行走机器人在行走时可以有约20ms的不接触地面的时间。该机器人不仅可以行走,而且可以跳跃,在跳跃状态下不接触地面的时间可达40ms。行走速度为每分钟14m。如果假设其大小与人相同,换算过来相当于时速2.5km,给人以缓缓慢跑的印象。? 5 语音技术概述 语音技术的研究目标就是使信息时代的各种信息机器象人一样“能听会说”。 语音识别(ASR): 把声音变成文字(耳朵的功能),相当于给机器装上了人工的耳朵。 孤立词识别技术 连续语音识别 关键词识别技术 话者识别技术 语音合成(TTS): 把文字变成声音(嘴巴的功能);相当于给机器装上了人工的嘴巴; 语音应答系统 自动报站 信息查询 语言学习软件 TTS(Text to Speech)技术(语音自动转换系统) 语音编码:在保持可以接受的失真的情况下,采用尽可能少的比特数表示语音。 脉冲编码调制 自适应预测编码 自适应变换编码 线性预测编码 线性预测声码器 共振峰声码器 相位声码器 两种类型的音频文件格式: RAW格式,没有文件头 raw 自我描述的格式,一个文件头 Wav Midi Aiff, au, voc Mpeg(Moving Pictures Experts Group/Motin Pictures Experts Group,中文译名是动态图像专家组。 ) Rm, ra, ram RealNetworks公司所制定的音频视频压缩规范称为RealMedia,用户可以使用RealPlayer或RealOnePlayer对符合RealMedia技术规范的网络音频/视频资源进行实况转播并且RealMedia可以根据不同的网络传输速率制定出不同的压缩比率,从而实现在低速率的网络上进行影像数据实时传送和播放。这种格式的另一个特点是用户使用RealPlayer或RealOnePlayer播放器可以在不下载音频/视频内容的条件下实现在线播放。 普通的rm格式是real8.0格式,采用的是固定码率编码。多见于VCD-rm,曾流行了一段时间。但由于VCD片源的先天不足,不够清晰,所以压出来的rm也不会清晰。  RMVB比RM多了一个VB,VB指的就是variable bit,动态码率的意思!就是real公司的新的编码格式9.0格式。rmvb(real9.0)和rm(real8.0)在音频的编码上都仍旧是采用8.0格式,我们压片时至少采用32kbps stereo music,通常时44K,MTV类的有用到96K,再高就没必要压缩了! 从音乐中提取有用信号 语音玩具 国内典型产品: 语音识别: 海尔 PCBOY RSC300 伊莱克斯 Homo RSC300 晶鑫玩具

文档评论(0)

1亿VIP精品文档

相关文档