复习课件语音识别多通道用户界面.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
精选 语音识别多通道用户界面 计算机092 徐杰明 200910311069 语音识别多通道用户界面定义 随着计算机技术的发展,人们迫切需要一种更加自然的、更加能为多数人所接受的方式与计算机沟通。在人机对话方面寻求最好的语音信息交换手段是发展人机语音通信和新一代智能计算机的主要组成部分。随着计算机的普及,越来越多的人在使用计算机,如何给不熟悉计算机的人提供一个友好的人机交互手段,逐渐引起了人们的重视。从而也就诞生了计算机语音学。计算机语音学覆盖了广泛的研究活动,包括语音识别、语音合成、语音编码、自然语言理解、机器翻译等。 语音识别技术是计算机通过识别和理解的过程把语音信号转变为相应的文本文件或命令的技术。当人们想对计算机说话时,通常首先需要进行语音识别,即将声音信号转换成单词流。 发展历史 语音识别的研究工作大约开始于20世纪50年代,当时AT&T Bell实验室基于共振峰提取技术实现了第一个可识别十个英文数字的语音识别系统——Audry系统。   60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态时间规划(DP)和线性预测分析技术(LPC),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。   70年代,语音识别领域取得了较大进展。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。   80年代,MFCC的参数提取技术和HMM模型的深入使用使得语音识别技术得到进一步的发展,语音识别的问题逐步在理论体系上得到了比较完整和准确的描述,同时在实践上又逐步研发出效率较高的解决算法。   90年代以来,在美国国防部的Darpa测试、Ears计划、近期的Gales计划,以及我国863计划等推动下,一大批高水平的研究机构和企业加入到语音识别的研究领域,极大地推动了语音识别技术的发展和应用。语音识别系统已经从过去的小词汇量、孤立词识别、特定人识别、安静环境等简单任务逐步发展到大词汇量、连续语音、非特定人、噪声环境下的识别任务,从单纯的语音识别任务发展到语音翻译任务,从实验室系统走向商用系统。? 最近年里,语音识别技术的显著进展,带来了高性能的算法和系统。用于语音拨号、语音命令控制、简单的数据输入和准备结构化文档的语音识别工具已经开始出现。 主要的研究方法分类 语音识别技术是计算机通过识别和理解的过程把语音信号转变为相应的文本文件或命令的技术。一个完整的语音识别系统应包括以下三个部分: 语音特征提取 语音信号在完成模/数转换后,还要进行特征提取,一方面为了获得语音的本质特征;另一方面还可以进行数据的压缩。目前通用特征提取的方法是基于语音帧的,即将语音信号分为有重叠的若干帧,对每一帧提取语音特征。 声学模型 声学模型是用于从语音到音节的概率计算。在识别时将提取的语音特征与声学模型比较并匹配,以获得最佳的识别效果。目前广泛采用的声学建模法有:隐马尔科夫模型建模和上下文相关建模。 语言模型 语言模型用于计算从音节到字的概率。目前,语言模型主要有:规则模型和统计模型两种。 语音识别的过程分为三个步骤:预处理、识别和后处理。 预处理 包含波形硬件采样率的确定、分帧的大小和帧移策略的确定;剔除噪声的带通滤波、高频预加重处理、各种变换策略;波形的自动切分。 首先对模拟语音信号采样,将其数字化。连续语音流切分是找出语音信号中的各种识别基元如音素、音节、半音节、声韵母、单词或意群等的始点和终点的位置,进而将对连续语音的处理变为对各个语音单元的处理。语音端点检测指的也是连续语音流切分。 识别 包含特征参数提取;参数模板存储及识别。 识别语音的过程,实际上是对语音特征参数模式的比较和匹配的过程。寻找一个既能充分表达语音特征又能彼此区别的、较稳定的特征参数是很重要的。语音识别系统常用的特征参数有线性预测系数、倒频谱系数、平均过零率、平均能量、短时频谱、共振蜂频率及带宽等。识别参数的选择着眼于能得到高的识别率,由于有些参数的提取较为复杂,计算较费时,因而要折衷考虑选用哪些参数并确定采用哪种识别方法。 后处理 包括自动分词、词类分析、词义分析、词用分析、语法分析、句法分析、同音词判别等。后处理是利用语言学知识库中的知识,按一定的推理策略,把识别出来的拼音转换成汉字并理解语句的含义。语言学知识库中有词汇、语法、句法、语义、语用和常用词语搭配等知识。 发展前景 21世纪是信息和网络的时代,Internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程 教育等一系列的人类活动都可在网络上实现。语音识别系统的出现

文档评论(0)

138****1998 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档