语音信号处理第9章要点详解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
另外特征参数、匹配时的距离尺度和使用的模型以及噪声环境、频带限制等处理设备的电器效应等也可以对于识别系统的识别性能有很大的影响。例如,即使是采用同样的模型和识别算法的系统,由于特征参数的不同以及模型精度的差异,识别效果也将产生很大的差别。从以上的分析可以知道连续语音识别系统的评价是很困难的工作,因为实用系统评价不仅要测试系统识别性能方面的指标,还必须动态地测试一些影响识别性能的其他因素指标。另一方面,建立有效的语音数据库对于系统评价着这重要的作用。数据库中应包括一般目的的数据和诊断数据,系统可以通过测试诊断数据达到充分表征性能的目的。在语音识别数据库的基础上,建立性能测试系统并对测试结果进行综合分析和评估。 语音识别是难度很大的发展中课题,语音识别技术的突破和产业化,不仅依赖于语音处理方法的进展,也依赖于语音识别数据库和语音识别系统评价这些基础性研究工作的支持。另一方面,要真正实现语音输入的目标,必须解决连续语音识别和理解的问题,孤立字识别方式大大地限制了语音识别系统的应用,也是将系统推向实用的主要障碍之一。 9.5 连续语音识别系统 9.6 连续语音识别系统的性能评测 9.6.1 连续语音识别系统的评测方法以及系统复杂性和识别能力的测度 9.6.2 综合评估连续语音识别系统时需要考虑的其他因素 9.5 连续语音识别系统 在连续语音识别系统中,一段语音信号(例如一个句子)经特征提取后,得到一个特征矢量的时间序列 ,假设该特征矢量序列可能包含的一个词序列为 ,那么连续语音识别的任务就是找到对应观测矢量序列 的最可能的词序列 。这个过程如果按照贝叶斯准则就是: 上式表明,要找到最可能的词序列 ,该词序列必须使P(W)与P(A/W)的乘积达到最大。第一项P(W)是W独立于语音信号特征矢量的先验概率,由语言模型决定。P(A/W)的特征矢量序列A在给定W下的条件概率,由声学模型决定。 在连续语音识别系统中利用语言模型的目的是找出符合句法约束的最佳单词序列,并且减少观测矢量序列 A 和词序列 W的匹配搜索范围,提高识别效率。 传统的连续语音识别方法中,语音识别处理和语言句法分析过程一般都是采用阶层性的处理方式进行统合,即先用语音的声学模型和输入信号进行匹配,求得一组候选单词串(列),然后利用语音的语言模型找出符合句法约束的最佳单词序列。这种方法存在如下两方面的问题,①语音处理和语言处理相互之间不施加约束,必然增加许多不必要的中间结果,从而既增加计算量又增加误识别的可能;②两个非紧密结合的模块之间传递信息时,一般要产生信息丢失,因而影响识别精度。 较好的方法应该是把句法分析的语言处理过程结合进语音识别过程中,实现帧同步的语音—语言处理的统合。当然,这样实现起来就复杂的多,一般采用的方法往往是把声学模型和语言模型结合在一个有限状态自动机的框架里进行处理。 下面我们举例来说明这种识别方法。 上面的计算过程对于输人观测矢量序列i=1,2,...,I以及有限状态自动机中全部状态反复进行后,最终识别结果的单词序列可以由下列算法从语句最后一个单词开始顺序求得(Back-Trace方法,简称为回溯法)。 声学基元模型:识别模型的基元单位的选择对于识别性能影响很大。对于汉语而言可以采用韵母和声母作为识别用基元模型。由于汉语中韵母和声母的长度不同,所以如果采用HMM作基元模型的话,可以采用两种不同长度构造的HMM。 系统语言模型:一般来说,对于词汇量较大的连续语音识别系统,用CFG、双词文法和三词文法建立语言模型的较多。假定用CFG来建立系统的语言模型,则能够描述连续语音识别系统整个被识别语句的CFG的非终端记号数、终端记号数和改写规则数反映了语言模型的规模;而系统语言模型的复杂度(Perplexity)则反映了该连续语音识别系统的语句识别难易程度。 句法分析和单词的预测方法:为了说明句法分析和单词的预测方法,我们可以考虑图9-7中“我要预约….”部分句子以及它的右侧单词预测过程 根据以上的过程,从终端记号num 、adj、pron、noun可以预测出单 词“二间、双人的、我、女同志、 房间、停车场”。在上述的单词预 测和路径更新法中,可以通过限制 路径长度,避免由于左递归规则 而引起的无限循环。 9.6 连续语音识别系统的性能评测 近年来语音识别尤其是连续语音识别的研究已取得了可喜的进步,正向实用系统发展。在这样的系统纷纷推出的时候,如何合理地评价和比较它们的性能,对于改进和完善现有系统设计,提高系统性能,便于优势互补,减少研究工作的重复性和盲目性,适时地引导语音识别研究向着期望的目标

文档评论(0)

三沙市的姑娘 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档