- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于ASR农民语言培训系统研究
基于ASR农民语言培训系统研究
摘要 语音是最符合人类自然习惯的一种通信交互方式。通过对ASR与TTS技术的研究,提出了使用微软公司SAPI组件开发农民语言培训系统的思路、方法和过程,具体使用到了微软Win32兼容语音应用设计接口、微软连续语音识别引擎以及微软读音合成引擎等,阐述了语音识别技术应用实用化的一种具体途径。
关键词 ASR;TTS;SAPI;语言教育
中图分类号 TP319文献标识码A文章编号1007-5739(2008)20-0296-02
计算机技术总是在朝着功能更强大、使用更方便的方向发展,应用的需求永远都是技术前进的动力。语音识别技术已经成为计算机在亿万百姓中普及的关键技术,并且必将成为信息产业的标志性技术和未来计算机的重要特征。ASR和TTS技术的出现,让人和计算机的距离更加靠近,人机接口更加自然。语音识别技术在帮助农民学习普通话方面也发挥着关键性作用,特别是作为农民纠正方言自学汉字语音的学习工具具有明显的优势。
扬州环境资源学院成立了专门课题组,对此项应用开展了研究,目的是要尝试研究开发一种适用于农民的语言培训系统模型,为市场化与实用化软件开发提供基础。
1中国农村的语言特点
中国是一个多民族国家,在广大农村地区主要使用地方方言进行交流,特别是汉语更是如此。汉语方言在各个汉语使用地区存在巨大的口语差异,这些方言和现代标准普通话之间有时存在着明显不同。在地理上,汉语方言的分岐很明显,只有部分学者视为同种语言。在说普通话的地区,即使相隔几百千米,一般也可以相互理解;然而在其他一些地区,相隔十几千米的当地居民也许已经不能互相理解;甚至存在同一个地区城南城北居民语言不能互通的情况。中国不同的语言学家将中国方言分为六大方言、八大方言,甚至九大方言。但是大家比较认同的是,无论采取哪种划分方式,这些“大方言”内部的使用者有时也不能相互理解;在不同的方言区,人们的语言意识也有一定的差别。
随着社会的发展进步,农民外出打工、做生意的现象有增无减。在不同的地区进行人际交流首先要解决语音问题,而多数农民并未接受过正规的普通话训练与教育,但农民可通过自主学习进行普通话的学习与训练。因此,需要对农民语言培训系统进行研究,而其中必不可少地需要用到语音识别技术。
2语音识别中的ASR与TTS技术
语音识别(Speech Recognition)是指采用计算机技术,从人的语音信号中自动提取最有意义的信息,从而确定语音信号的语言含义的过程。作为一个科学研究领域,它与声学、语音学、语言学、脑科学、生理学、心理学、人工智能、数学信号处理理论、模式识别理论、统计信息理论、最优化理论、计算机科学等众多学科紧密相连;它甚至还涉及到人的体态语言,如人在说话时的表情、手势等,其最终目标是实现人与机器进行自然语言通信。其中有2种十分重要的技术,即ASR和TTS。
ASR(Automated Speech Recognition),即自动语音识别技术,它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:识别词汇表的大小和语音的复杂性、语音信号的质量、单个人说话还是多个人说话和硬件。
TTS(Text To Speech),即文语转换,又称为计算机语音合成,它的过程和ASR刚好相反,是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为,语音合成系统包括3个主要的组成部分:文本分析模块、韵律生成模块和声学模块。目前,TTS的技术已经可以达到商业化的地步。
3SAPI技术简介
目前,市场上有很多比较成熟的语音ASR和TTS产品,而且他们大多数都支持二次开发,如微软的Speech Application SDK(SASDK)、IBM的Dutty++等。微软的SAPI作为Windows的一部分,已经被集成在Windows里面。相对于其他引擎,他的识别率比较高,如果做过适应性调整,识别率可以达到90%以上,而且他的开发包还可以免费获取,各种文档资源也很齐全,很方便做二次开发。由于SAPI是作为Windows的一个独立组件在发展,版本更新也比较快。
最新的SAPI 3.1提供了基于COM的高级编程接口,应用程序通过这些接口与语音引擎打交道。SAPI将ASR和TTS功能集成在同一个语音引擎中,TTS可以将文本和文件合成为语音,ASR则是将人的声音信号转换为可读的文
原创力文档


文档评论(0)