多媒体计算机技术5节.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
尚待成熟的语音识别 就在几年前,语音识别(SR)还是投资界的宠儿。市场领导厂商如Dragon和Lernout Hauspie(LH)有点被热情冲昏了头脑。98%的准确率及能够识别10万余字的功能似乎几个月内就会淘汰键盘、甚至手写笔。 许多用户对传闻的准确率感到失望。尽管许多公司竭力炒作其技术可以实现很高的准确率,但是准确率往往只有80%到85%。SR对许多字断章取义,尚未解决标点问题,似乎老是听不懂尖声的嗓音、感冒患者的声音及各种口音。显然,一项尚在发展的技术被人误传成了“成品”。这项技术即使接近厂商在上世纪末所做的承诺,恐怕也需要许多年。 语音识别的发展历史 语音识别技术的研究工作始于20世纪50年代,当时ATT Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。 60年代,计算机的应用推动了语音识别的发展。 70年代,语音识别领域取得了突破。 80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。 90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。 语音识别技术的发展 如图表示了从80年代初以来语音识别技术经历的从孤立词、小词汇量、特定人到大词汇量、非特定人、自然口语识别的发展历程。 语音识别技术 不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,它所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。 典型语音识别系统 的实现过程 语音识别单元的选取 选择识别单元是语音识别研究的第一步 语音识别单元有单词(句)、音节和音素三种 单词单元广泛应用于中小词汇语音识别系统 音节单元多见于汉语语音识别 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用 特征参数提取技术 语音信号中含有丰富的信息,这些信息称为语音信号的声学特征 特征提取是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息 由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析 常用的一些声学特征 线性预测系数LPC 倒谱系数CEP Mel倒谱系数MFCC和感知线性预测PLP 模式匹配及模型训练技术 模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。 语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW,又称为动态时间弯折技术)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。 语音识别系统的类型 语音识别系统有以下几种分类方式: 根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统 根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接词语音识别系统以及连续语音识别系统 根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统 特定人语音识别系统 特定人的识别系统精明得足以能了解讲话者的语音特点,它从语音签名上就能知道讲话者的身份。 只有在讲话者用特定单词组形成的词汇表训练系统后,它才能识别 特定人系统的优点是它是可训练的,系统很灵活,可以训练它来识别新词 特定人的系统的缺点是由一个用户训练的系统不能被另一用户使用 非特定人语音识别系统 非持定人识别系统可识别任何用户的语音。它不需要任何来自用户的训练,因为它不依赖于个人的语音签名。 为生成非特定人识别系统、大量的用户训练了大词汇表的识别器。 在训练系统时,男声和女声、不同的口音和方言,以及带有背景噪音的环境都计入了考虑范围之内以生成参考模板。 孤立词语音识别系统 孤立词(语音)识别系统,一次只提供一个单一词的识别 识别器的第一个任务是进行幅度和噪声归一化,下一步是参数分析 可以通过把对应于一个词的大量样本聚集为单一群来获得非特定人孤立单词语音识别器。 连接词语音识别系统 连接词的语音由所说的短语组成,而短语又是由词序列组成 识别连接词短语中单词的一种方法是采用词定位技术 类似于孤立词语音识别,连接词语音识别用于命令和控制应用 连续语音识别系统 连续语音由在听写中形成段落的完整句子组成 连续语音识别系统可以分成下列三部分: 第一部分包括数字化、幅度归一化、时间归一化和参数表示 另一部分包括分割并把语音段标记成在基于知识或基于规则系统上的符号串 最后一部分是设计用于识别词序列而进行语音段匹配 语音识别的应

文档评论(0)

精品课件 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档