- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音识别算法综述 语音识别的分类 一、从识别单位分为以下几类 1.孤立词语音识别。识别的单词间有停顿。 2.连接词语音识别。在连续语音中识别出其包含的几个或某几 个词。 3.连续语音识别。识别的单词之间没有停顿。 4.语音理解。在语音识别的基础上,用语言学知识推断出语音 的含义。 二、从识别的词汇量可以分为小词汇(10~50个)、中词汇( 50~200个)、大词汇(200个以上)等三类。 三、按讲话人范围可以分为特定讲话人和非特定讲话人两类。 不仅仅这三种分类方法,我们还可以从识别方法、识别环境、 说话人类型等方面进行分类。 语音识别技术的发展方向 一、大词汇量连续语音识别系统,主要应用于计算机的听写, 以及与电话网或者互联网相结合的语音信息查询服务系统,这 些系统都是在计算机平台上实现的。 二、小型化、便携式语音产品的应用,如无线手机上的拨号、 汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这 些应用系统大都是使用专门的硬件系统实现。 语音识别与语言学和人工智能有密切联系。语音识别的重大进 展可能并不是来自分析、自适应模式匹配及计算机运算等方面 的进一步研究,而是来自语言感知、语言产生、语音学、语言 学及心理学的研究。 语音识别的原理 预处理 待识别的语音经过话筒变成电信号后加在识别系统的输入端, 首先要经过预处理。预处理包括反混叠失真滤波、预加重和端 点检测。经过预处理后,按照一定的特征提取方法产生语音特 征参数,这些特征参数的时间序列便构成了待识别语音模式, 将其与已经存储在的参考模式逐一进行比较(模式匹配),最 佳(由判决规则确定)的参考模式便是识别结果。参考模式是 在系统使用前获得并存储起来的,为此,要输入一系列已知语 音信号,提取它们的特征作为参考模式,这一过程称为训练。 语音识别所遇的难题是搜索最佳识别结果和参数训练。目前, 语音识别所应用的模式匹配和模型训练技术主要有动态时间规 整技术(DTW)、隐马尔科夫模型(HMM)和人工神经网络。 特征提取 特征提取就是对语音信号进行分析处理,去除语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。特征提取一般要解决两个问题,一个是从语音信号中提取有代表性的合适的特征参数,另一个是进行适当的数据压缩。目前,语音识别技术中应用最流行的特征参数是基于人的声道模型和听觉机理的LPCC,LPCMCC,MFCC和ZCPA。 语音特征的参数是分帧提取的,每帧特征参数一般构成一个矢量序列。语音信号中提取出来的矢量序列经过数据压缩后便成为语音的模板,显然,特征的选取对识别效果至关重要,选择的标准应尽量满足一下两个要求: (1)能有效的代表语音特征,包括声道特征和听觉特征,具有很好的区分性。 (2)特征参数要计算方便,在保持高识别率的情况下。最好有高效的计算方法。 特征提取的方法 一、线性预测系数(LPC) 二、LPC倒谱系数(LPCC) 三、Mel频率倒谱系数(MFCC) 四、LPC梅尔倒谱系数(LPCC) 五、zcpa特征 LPC 倒谱 依据语音信号产生的生理和数学模型可知,语音信号是音源激励分量与声道冲激响应、辐射模型三者相卷积的产物。因此通过语音信号的倒谱分析可有效地分离激励成分与声道成分。 计算语音信号的倒谱通常有两种方法:其一是先对语音信号进行短时付里叶变换,取其模的对数值,再进行反变换,得其倒谱。声道信息可通过低时窗取出。 其二是依据AR模型对LPC参数进行递推,形成LPC倒谱,LPC 倒谱(LPCC)由于利用了线性预测中声道系统函数的最小相位特性,避免了复杂的相位卷积和复对数计算;且LPC倒谱的运算量仅是用FFT 求倒谱时运算量的一半,适于实时应用,它的递推式如下: 识别方法介绍 一般来说,语音识别的方法有四种 : (1)基于声道模型和语音知识的方法 (2)模式匹配方法 (3)统计型模型方法 (4)人工神经网络方法 基于声道模型和语音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段 。 模式匹配常用的技术有动态时间规整(DTW)和矢量量化(VQ) ;统计型模型方法常见的是隐马尔可夫模型;语音识别常用的神经网络有反向传播(BP)神经网络,径向基函数网络(RBF)及新兴的小波网络(这两年很少有人用)。 动态时间规整(DTW) 动态时间弯折是一种效果非常好的非线性时间规整模板匹配法。例如对于孤立词识别系统,将每个词重复多遍发音,直到得到一个一致性较好的特征矢量序列,从而形成一个模板,在识别时,待识别矢量序列用DTW算法分别求得与每个模板的累计失真,然后判别它属于哪一类。 矢量量化(V
文档评论(0)