- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
宾馆信息语音检索系统的研究
摘要:针对手工输入查询要求的传统检索系统的不便,该文提出利用语音检索技术,设计开发了Voice Hotel宾馆信息查询系统,基本实现了人机语音对话的查询方式。该系统采用的语音处理技术有:1)基于HMM模型的语音识别,用以现实语音到文本的转换;2)PSOLA的语音合成技术,用以实现文本到语音的转换,完成对检索结果进行语音播报的功能。该系统的语音检索正确率达到85%。
关键词:语音检索;语音识别;语音合成
中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)22-6295-03
Hotel Information Voice Retrieval System
LV Dan-ju, XU Wei-heng
(Computer and Information Science Dept., Southwest Forestry University, Kunming, China, 650224)
Abstract: Unlike traditional retrieval system, manually inputting query requests, this paper proposes voice search system. Using voice search technology, we design and develop the Voice Hotel information inquiry system, which basically fulfils man-machine voice dialog forms of inquiry. The system uses the voice processing technologies 1) HMM model based on speech recognition, converting real speech to text; 2) PSOLA of speech synthesis technology, converting text to speech. The retrieval accuracy of the system reaches 85%.
Key words: voice search; speech recognition; speech synthesis
语音搜索技术(Voice Search)是把用户的语音咨询信息转换成文本咨询信息,根据该文本信息进行数据搜索的技术。该技术为用户提供了人-机交流更为直接的语音对话方式。由于语音的便利性(较传统的手工输入)和可用性(较以内容为主的影像检索),成为检索技术的重要发展方向。近年来,随着语音搜索技术中的关键技术如语音识别、语音合成技术的不断发展与完善,语音搜索已在电信、金融、娱乐、政府等行业中得到了广泛深入的运用[1],如语音电话号码查询,音乐/视频的搜索管理,股票的语音询问与报价以及会议信息系统等。微软旗下的Tellme公司推出了针对于黑莓手机语音搜索软件实现了移动电话语音查询功能,之后雅虎也推出了OneSearch语音信息搜索软件。继微软Tellme和OneSearch语音搜索服务之后,Google也于2009年11月推出了手机语音搜索软件。我国也于本世纪初相继推出各城市语音控制导航电子地图、KTV语音点歌服务系统等。语音搜索技术在不到20年的发展中不断完善[2-4],显示出其强大的发展潜力。
1 系统介绍
1.1 系统组成
本系统采用的语音检索系统结构[1], 如图1所示。
对话系统搜索模型首先将游客的语音查询信息输入自动语音识别器(Automatic Speech Recognizer ASR),该模块将由声学模型(Acoustic Model AM)和语言模型(Language Model LM)组成。语音识别器用于实现语音到文本的转换(Speech to Text),ASR产生最好的一个识别文本结果。 系统根据识别的文本调用搜索模块SQL Server引擎进行数据搜索。将符合条件的一个或多个数据信息进行显示,并将搜索结果语音播报给用户。
1.2 系统采用技术
1.2.1 语音识别
语音识别部分主要由两个部分组成:语音训练阶段与语音识别阶段,如图 2所示,语音训练阶段是利用语料库中的语音信息,抽取其美尔倒谱参数MFCC的语音特征值,该参数考虑了人耳对声音信号的因素,能够较好的反映;以隐马尔科夫模型HMM为语音模型,依据数据统计原理,建立起语音参考模板。在训练阶段完成后,即可进入识别阶段,识别阶段将用户的语音信号抽取MFCC语音特征,为该
文档评论(0)