自动语音识别技术的发展.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自动语音识别技术的发展.doc

自动语音识别技术 ——如今,随着研究和开发语音产品的厂家如雨后春笋般地涌出,市场上的IVR(交互语音应答)和语音识别产品及应用也就多如牛毛起来。令人欣喜的是,在这个发展如此迅速的市场里,新技术的发展正不断地扩大它的范围。同时,TTS(文语转换)和ASR(自动语音识别)引擎结合自然语言处理的应用也随之产生。ASR把用户的语音转换为不同词语组成的文本句子。而TTS则把此文本句子转换为计算机生成的语音。介乎两者之间,自然语言技术则让计算机可以理解用户所说的是什么。 ——这些技术的结合使得人类语言和应用之间的相互交互成力可能,从而避免了对预先录制的语音文件或人工输入设备的需求。更为可喜的是,TTS技术刚经历了一个里程碑式的发展:最新的语音合成引擎把连接技术(connectenation:预先录制好的真实语音段相连接)的最新发展和新的合成算法结合起来。最终导致的结果是把传统TTS引擎产生的机器合成的语音彻底滑入终结深渊。这些引擎对于电话等业界来说是非常理想的,因为这些业界需要高质量的话音,而且也可以支持这种功能强大的引擎。它们在银行、电信、机票预定和其它一些领域都有着很大的市场潜力,这些领域都是利用电话系统从本身的数据库中为客户提供动态的信息检索。这种技术进步同时也意味着阻碍人类和计算机进行双向交谈的障碍消失,以及真正的自然语言对话系统的产生。 ——先前,开发商认为TTS最大的绊脚石是缺乏足够的自然特性,也就是说TTS产生的语音是机械的和不友好的。在上个世纪八十年代和九十年代初期风行的TTS应用主要还是依赖于一种称为共振峰合成(formant synthesis)的技术,它的原理是处理器产生一个波形,然后让该波形通过各种滤波器以形成一个语音波。尽管这种技术具有改变话音音调和持续时间的功能,可产生的声音仍然具有明显的合成痕迹,而且难以理解。因此,要成为实际应用就有了一定的局限性。 ——随着处理器和存储器在容量上的增长和在价格上的降低,开发商已经开始利用更大的语音段来更加方便地开发听起来更加自然的声音。同时,开发商也采用了新的技术来更加有效地连接这些语音段,从而产生更加顺畅更加自然的合成声音。 ——有更多的语音段,有更好的方法来连接这些语音段,以及经过改进的处理能力和完善的语言学准则,所有这些因素综合起来就可以对各种不同的文本输入提供智能的更自然的拼读。此外,由于合成声音是在对话间隙产生的,再加上先进的连接算法,真正文互式的IVR时代之门已经逐步开启。 ——对于呼叫中心来说,TTS和ASR的融合意味着两重含义。其一,由于声音更加接近人类的语言,因此改进后的TTS将有助于增强用户对该技术的认可程度;其二,更加自然的TTS和高质量的语音识别器能让计算机和人们进行真正意义上的对话,这样,计算机就能理解对方(人)说的什么,并且在自己模糊不清的时候,向对方咨询以求明晰。一、模糊语音 ——一般来说,未来的语音接口取决于计算机和用户进行交互的能力。这也就是说,计算机必须能够生成一些问题来澄清或验证它们所听到的,就象人类进行类似的举止一样。尽管预录音技术解决了实际的语音接口问题。但是它把计算机限制在只能重复一些开发商预先设计好的问题,而排除了真正文互的对话。而此正是需要而且正在改变的问题所在。 ——和新的ASR技术相结合的最新合成器,可以让计算机生成任何必要的问题来明晰语声输入内容。由于TTS语音质量取得了很大进步,开发商正把注意力集中在推出新的自然语言对话系统上,该系统把TTS和自然语言ASR结合了起来。 ——自然语言对话系统可以让计算机的行为方式类似于下面乙方所说的那样: ——甲方:我想订一张星期五飞往的机票。 ——乙方:——乙方: ——甲方:二、旧技术的新生机 ——基本的语音合成过程分为两步。首先,标准格式的文本被转换为一种语音表示,并用标记符表示重音和其它一些拼读指南。然后,通过合成过程产生声音,这个过程可能是通过DSP(数字信号处理器)、微处理器或者两者共同来实现的。语音表示最后就成了语声。 ——新的ASR引擎利用了一种基于人工智能的自然语言理解技术来理解语音。这种技术利用基于语洁的语音理解软件来增强传统的语音识别功能。计算机然后就可以生成语声抽象含义的译文。 ——语音识别软件利用基本的语法规则来对句子进行剖析:主语,动词,宾语等等。ASR引擎则运用自然语言理解技术来确定句子的含义,然后用系统可以理解的一系列命令来主成一个问题。一旦这些命令被处理为一个句子,语音合成器就把该句子转换为相应的词语。 ——厂商希望更加接近人类生活的对话系统将能开启推出大量新型网络服务的大门,其中包括远程电子邮件、远程数据库访问、语音邮件和传真。语音识别和呼叫中心之间的最佳融合就是这些新型网络服务的涌现和普及,以及其它一些新兴的应用。随着ASR和TTS的发展,业界观察家

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档