基于ASR农民语言培训系统研究.docVIP

下载本文档

4
0
约3.51千字
约 8页
2018-08-27 发布于福建
举报
版权申诉

基于ASR农民语言培训系统研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于ASR农民语言培训系统研究

基于ASR农民语言培训系统研究　　摘要语音是最符合人类自然习惯的一种通信交互方式。通过对ASR与TTS技术的研究，提出了使用微软公司SAPI组件开发农民语言培训系统的思路、方法和过程，具体使用到了微软Win32兼容语音应用设计接口、微软连续语音识别引擎以及微软读音合成引擎等，阐述了语音识别技术应用实用化的一种具体途径。　　关键词 ASR；TTS；SAPI；语言教育　　中图分类号 TP319文献标识码A文章编号1007-5739（2008）20-0296-02 　　　　计算机技术总是在朝着功能更强大、使用更方便的方向发展，应用的需求永远都是技术前进的动力。语音识别技术已经成为计算机在亿万百姓中普及的关键技术，并且必将成为信息产业的标志性技术和未来计算机的重要特征。ASR和TTS技术的出现，让人和计算机的距离更加靠近，人机接口更加自然。语音识别技术在帮助农民学习普通话方面也发挥着关键性作用，特别是作为农民纠正方言自学汉字语音的学习工具具有明显的优势。　　扬州环境资源学院成立了专门课题组，对此项应用开展了研究，目的是要尝试研究开发一种适用于农民的语言培训系统模型，为市场化与实用化软件开发提供基础。　　　　1中国农村的语言特点　　　　中国是一个多民族国家，在广大农村地区主要使用地方方言进行交流，特别是汉语更是如此。汉语方言在各个汉语使用地区存在巨大的口语差异，这些方言和现代标准普通话之间有时存在着明显不同。在地理上，汉语方言的分岐很明显，只有部分学者视为同种语言。在说普通话的地区，即使相隔几百千米，一般也可以相互理解；然而在其他一些地区，相隔十几千米的当地居民也许已经不能互相理解；甚至存在同一个地区城南城北居民语言不能互通的情况。中国不同的语言学家将中国方言分为六大方言、八大方言，甚至九大方言。但是大家比较认同的是，无论采取哪种划分方式，这些“大方言”内部的使用者有时也不能相互理解；在不同的方言区，人们的语言意识也有一定的差别。　　随着社会的发展进步，农民外出打工、做生意的现象有增无减。在不同的地区进行人际交流首先要解决语音问题，而多数农民并未接受过正规的普通话训练与教育，但农民可通过自主学习进行普通话的学习与训练。因此，需要对农民语言培训系统进行研究，而其中必不可少地需要用到语音识别技术。　　　　2语音识别中的ASR与TTS技术　　　　语音识别（Speech Recognition）是指采用计算机技术，从人的语音信号中自动提取最有意义的信息，从而确定语音信号的语言含义的过程。作为一个科学研究领域，它与声学、语音学、语言学、脑科学、生理学、心理学、人工智能、数学信号处理理论、模式识别理论、统计信息理论、最优化理论、计算机科学等众多学科紧密相连；它甚至还涉及到人的体态语言，如人在说话时的表情、手势等，其最终目标是实现人与机器进行自然语言通信。其中有2种十分重要的技术，即ASR和TTS。　　ASR（Automated Speech Recognition），即自动语音识别技术，它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性，目前的语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素：识别词汇表的大小和语音的复杂性、语音信号的质量、单个人说话还是多个人说话和硬件。　　TTS（Text To Speech），即文语转换，又称为计算机语音合成，它的过程和ASR刚好相反，是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为，语音合成系统包括3个主要的组成部分：文本分析模块、韵律生成模块和声学模块。目前，TTS的技术已经可以达到商业化的地步。　　　　3SAPI技术简介　　　　目前，市场上有很多比较成熟的语音ASR和TTS产品，而且他们大多数都支持二次开发，如微软的Speech Application SDK（SASDK）、IBM的Dutty++等。微软的SAPI作为Windows的一部分，已经被集成在Windows里面。相对于其他引擎，他的识别率比较高，如果做过适应性调整，识别率可以达到90％以上，而且他的开发包还可以免费获取，各种文档资源也很齐全，很方便做二次开发。由于SAPI是作为Windows的一个独立组件在发展，版本更新也比较快。　　最新的SAPI 3.1提供了基于COM的高级编程接口，应用程序通过这些接口与语音引擎打交道。SAPI将ASR和TTS功能集成在同一个语音引擎中，TTS可以将文本和文件合成为语音，ASR则是将人的声音信号转换为可读的文