基于ASR和TTS语言教育系统研究东南大学研究生院许.docVIP

基于ASR和TTS语言教育系统研究东南大学研究生院许.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于ASR和TTS的语言教育系统的研究 东南大学研究生院  许开维  扬州环境资源学院 彭飞 摘要 本文通过对ASR 与TTS技术的研究,根据扬州环境资源学院课题组的意见,提出了使用微软件公司SAPI组件,开发儿童语言教育系统的思路、方法和过程,阐述了语音识别技术应用的实用化的一种具体途径。 关键字 ASR TTS SAPI  语言教育 计算机技术总是在朝着功能更强大、使用更方便的方向发展,应用的需求永远都是技术前进的动力。语音识别技术己经成为计算机在亿万百姓中普及的关键技术,并且必将成为信息产业的标志性技术和未来计算机的重要特征。ASR和TTS技术的出现,让人和计算机的距离更加靠近,人机接口更加自然。语音识别技术在帮助儿童学习语言方面也发挥着关键性的作用,特别是儿童开始学习汉字语音时作为学习工具使用,具有明显的优势。 扬州环境资源学院成立了专门课题组,对此项应用开展了研究,目的是要尝试研究开发一种适用于儿童语言学习系统的模型,为市场化与实用化的软件开发提供基础。 一、ASR与TTS技术   ASR,英文的全称是Automated Speech Recognition,即自动语音识别技术,它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:识别词汇表的大小和语音的复杂性、语音信号的质量、单个说话人还是多说话人和硬件。   TTS,英文全称是Text To Speech,即文语转换,又称为计算机语音合成。它的过程和ASR刚好相反,是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为,语音合成系统包括三个主要的组成部分:文本分析模块、韵律生成模块和声学模块。目前,TTS的技术已经可以达到商业化的地步。 二、SAPI技术简介   目前,市场上有很多比较成熟的语音ASR和TTS产品,而且大多数都支持二次开发。如微软的Speech Application SDK(SASDK)、IBM的Dutty++等。微软的SAPI是作为Windows的一部分,已经被集成在Windows里面。相对于其他引擎,它的识别率也比较高,如果做过适应性调整,识别率可以达到90%以上。而且它的开发包还可以免费获取,各种文档资源也很齐全,很方便做二次开发。由于SAPI是作为Windows的一个独立组件在发展,版本更新也比较快。   最新的SAPI 3.1提供了基于COM的高级编程接口,应用程序通过这些接口与语音引擎打交道。SAPI将ASR和TTS功能集成在同一个语音引擎中,TTS可以将文本和文件合成为语音,ASR则是将人的声音信号转换为可读的文本或文件。 三、主要设计功能和性能 基于ASR与TTS技术,学院课题组使用微软公司的SAPI组件进行了研发,经过积极的努力,初步设计出了一个符合儿童语言教育特点的软件。儿童能基于本软件平台,通过调节训练周期(在额定周期内完成一个语音训练动作),设定要训练的文字,方便地进行学习。 此外该系统还能提供正误判断动画提示,中文/拼音/英文语音识别智能切换,自动化讲解语音合成,语音识别器选择等功能。系统平台已经基本达到设计要求,能完成语言学习的各项功能。 四、系统实现 通过理论上的设计分析,学院课题组初步将系统框架确定为五个部分。 1.实现VC++中文语音识别功能 实现的功能模块是VC++开发平台与微软语音识别引擎之间的交流沟通,因此在VC++中设计了一个语音识别结果显示文本框。随后根据熟悉微软语音开发包的原理,将语音引擎通过DDI层(设备驱动接口)和SAPI(语音应用设计接口)进行交互,应用程序通过API层和SAPI通信。通过使用这些API,用户可以快速开发在语音识别或语音合成方面应用程序。用Visual Basic/C#/JScript开发,通常是使用automation技术将COM组件封装成类或对象后引用在语言体中的。综合考虑,为彻底较为深入地了解COM原理,课题组采取直接创建COM对象,调用其接口方法的形式进行开发。 2.实现目标VC++后台与Flash前台+微软语音识别引擎通讯 通过设计制作完全实现了语音的识别工作,随后是解决VC++与Flash通讯问题。课题组在VC++平台中嵌入FLASH控件(Shockwave Flash Object),在VC++中取得并设置FLASH动画文件的路径,通过shockwaveflash.h文件,查询出在VC++环境中Flash控件与外界交换数据的方法,其原理是根据flash中是采用FScomman

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档