基于ASR和TTS语言教育系统研究东南大学研究生院许.docVIP

下载本文档

3
0
约2.92千字
约 6页
2017-09-10 发布于重庆
举报
版权申诉

基于ASR和TTS语言教育系统研究东南大学研究生院许.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于ASR和TTS的语言教育系统的研究东南大学研究生院　　许开维　扬州环境资源学院　彭飞摘要本文通过对ASR 与TTS技术的研究，根据扬州环境资源学院课题组的意见，提出了使用微软件公司SAPI组件，开发儿童语言教育系统的思路、方法和过程，阐述了语音识别技术应用的实用化的一种具体途径。关键字 ASR TTS SAPI　　语言教育计算机技术总是在朝着功能更强大、使用更方便的方向发展，应用的需求永远都是技术前进的动力。语音识别技术己经成为计算机在亿万百姓中普及的关键技术，并且必将成为信息产业的标志性技术和未来计算机的重要特征。ASR和TTS技术的出现，让人和计算机的距离更加靠近，人机接口更加自然。语音识别技术在帮助儿童学习语言方面也发挥着关键性的作用，特别是儿童开始学习汉字语音时作为学习工具使用，具有明显的优势。扬州环境资源学院成立了专门课题组，对此项应用开展了研究，目的是要尝试研究开发一种适用于儿童语言学习系统的模型，为市场化与实用化的软件开发提供基础。一、ASR与TTS技术　　ASR，英文的全称是Automated Speech Recognition，即自动语音识别技术，它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素：识别词汇表的大小和语音的复杂性、语音信号的质量、单个说话人还是多说话人和硬件。　　TTS，英文全称是Text　To　Speech，即文语转换，又称为计算机语音合成。它的过程和ASR刚好相反，是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为，语音合成系统包括三个主要的组成部分：文本分析模块、韵律生成模块和声学模块。目前，TTS的技术已经可以达到商业化的地步。二、SAPI技术简介　　目前，市场上有很多比较成熟的语音ASR和TTS产品，而且大多数都支持二次开发。如微软的Speech Application SDK（SASDK）、IBM的Dutty++等。微软的SAPI是作为Windows的一部分，已经被集成在Windows里面。相对于其他引擎，它的识别率也比较高，如果做过适应性调整，识别率可以达到90％以上。而且它的开发包还可以免费获取，各种文档资源也很齐全，很方便做二次开发。由于SAPI是作为Windows的一个独立组件在发展，版本更新也比较快。　　最新的SAPI 3.1提供了基于COM的高级编程接口，应用程序通过这些接口与语音引擎打交道。SAPI将ASR和TTS功能集成在同一个语音引擎中，TTS可以将文本和文件合成为语音，ASR则是将人的声音信号转换为可读的文本或文件。三、主要设计功能和性能基于ASR与TTS技术，学院课题组使用微软公司的SAPI组件进行了研发，经过积极的努力，初步设计出了一个符合儿童语言教育特点的软件。儿童能基于本软件平台，通过调节训练周期（在额定周期内完成一个语音训练动作），设定要训练的文字，方便地进行学习。此外该系统还能提供正误判断动画提示，中文/拼音/英文语音识别智能切换，自动化讲解语音合成，语音识别器选择等功能。系统平台已经基本达到设计要求，能完成语言学习的各项功能。四、系统实现通过理论上的设计分析，学院课题组初步将系统框架确定为五个部分。 1.实现VC++中文语音识别功能实现的功能模块是VC++开发平台与微软语音识别引擎之间的交流沟通，因此在VC++中设计了一个语音识别结果显示文本框。随后根据熟悉微软语音开发包的原理，将语音引擎通过DDI层（设备驱动接口）和SAPI(语音应用设计接口)进行交互，应用程序通过API层和SAPI通信。通过使用这些API，用户可以快速开发在语音识别或语音合成方面应用程序。用Visual Basic/C#/JScript开发，通常是使用automation技术将COM组件封装成类或对象后引用在语言体中的。综合考虑，为彻底较为深入地了解COM原理，课题组采取直接创建COM对象，调用其接口方法的形式进行开发。 2.实现目标VC++后台与Flash前台+微软语音识别引擎通讯通过设计制作完全实现了语音的识别工作，随后是解决VC++与Flash通讯问题。课题组在VC++平台中嵌入FLASH控件（Shockwave Flash Object），在VC++中取得并设置FLASH动画文件的路径，通过shockwaveflash.h文件，查询出在VC++环境中Flash控件与外界交换数据的方法，其原理是根据flash中是采用FScomman