- 10
- 0
- 约 13页
- 2017-08-07 发布于河南
- 举报
语音识别技术
百科名片??
支持语音识别技术的手机
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
目录
简介
历史
模型
发展历史
国外研究历史及现状
国内研究历史及现状
分类
从说话者与识别系统的相关性考虑
从说话的方式考虑
从识别系统的词汇量大小考虑
几种基本方法
基于语音学和声学的方法
模板匹配的方法
神经网络的方法
语音识别系统的结构
语音信号预处理与特征提取
声学模型与模式匹配
语言模型与语言处理
语音识别所面临的问题
就算法模型方面而言
就自适应方面而言
就强健性方面而言
多语言混合识别以及无限词汇识别方面
多语种交流系统的应用
语音识别技术的前景和应用
简介
历史
模型
发展历史
国外研究历史及现状
国内研究历史及现状
分类
从说话者与识别系统的相关性考虑
从说话的方式考虑
从识别系统的词汇量大小考虑
几种基本方法
基于语音学和声学的方法
模板匹配的方法
神经网络的方法
语音识别系统的结构
语音信号预处理与特征提取
声学模型与模式匹配
语言模型与语言处理
语音识别所面临的问题
就算法模型方面而言
就自适应方面而言
就强健性方面而言
多语言混合识别以及无限词汇识别方面
多语种交流系统的应用
语音识别技术的前景和应用
展开
编辑本段简介
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。
语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
编辑本段历史
早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的Radio Rex玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由ATT贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(College of London)的Denes已经将语法概率加入语音识别中。
1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间弯折Dynamic Time Warp技术。
语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。[1]。此后严格来说语音识别技术并没有脱离HMM框架。
尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。
编辑本段模型
目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的 语音识别系统由以下几个基本模块所构成
信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。 统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。 发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。 语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。 解码器。解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。 从数学角度可以更加清楚的了解上述模块之间的关系。首先,统计语音识别的最基本问题是,给定输入信号或特征序列,符号集(词典),求解符号串使得:
W = argmaxP(W | O) 通过贝叶斯公式,上式可以改写为
由于对于确定的输入串O,P(O)是确定的,因此省略它并不会影响上式的最终结果,因此,一般来说语音识别所讨论的问题可以用下面的公式来表示
原创力文档

文档评论(0)