一种通用语音接口模式设计与实现.docVIP

一种通用语音接口模式设计与实现.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种通用语音接口模式设计与实现

一种通用语音接口模式设计与实现【摘 要】用户的语音输入和对话系统关系密切,通用的接口风格应该能够进行灵活和有效的开发;而且应用程序接口的开发要鲁棒易于进行。本文主要针对现有的接口模式在应用中的局限,提出了一个通用的语音接口模式,适应于处理指挥所事务的对话系统[1]。并对该模式的语言以及详细的策略进行了介绍。实验表明该模式具有较好的语音识别性能、鲁棒性,而且系统开发周期较短。 【关键词】对话系统;语音接口;鲁棒 1.现有的语音接口模式分析 目前基于语音的对话系统其接口模式主要三种[2]:指令和控制CC(Command and Control),交互式语音应答IVR(Interactive Voice Response),自然语言NL(Natural Language)。CC接口限制用户跟系统可以交谈的词汇为特定严格的命令,由于不要求复杂的语法,CC开发容易而且语音识别的错误率低。但是,在某领域中学会的交互技巧不能应用到新的领域中去,CC很难使用。IVR系统的词汇是由动态的分层结构化话语集合组成的。对话上下文决定了在任何特定的时刻什么话语是可理解的,在每一轮对话中,系统都会用一个可理解话语集合来提示用户,而不是要求用户记住对话内容。NL接口则尝试分析自然语言,从用户的话语中提取任务相关的信息。这一般与鲁棒分析和填槽策略有关,需要很少或不需要用户去记忆对话状态或学习。CC接口不需要很多的训练,但是过于呆板和机械,使用起来生硬。IVR接口对于频繁的使用不太有效,而且NL接口的开发比较容易出错而且代价高。 本文在现有的语音接口模式的基础上,提出了一个通用的用户语音接口模式Speech User Interface(SUI)。用户人员发出的语音通过人机对话接口,最终达到与系统中的设备或应用程序的交互的目的,这里人机对话接口,不仅要能识别用户的话语,而且要能使设备或应用程序使其按照用户的意图对用户提供相应的服务。 2.SUI模式 设计SUI的目的是给用户和简单应用程序或设备能够自然、高效的进行对话,介于CC和NL之间:其形式比自然语言更加结构化,比等级菜单或严格的CC更加灵活。本文的正是在研究了两个的非语音交互方式:WIMP界面[3](窗口、图标、菜单和下拉菜单)和手写识别系统[4]基础上设计的。 2.1 相关组件 在本文的实验中,语音识别是由科大讯飞语音识别引擎完成的,使用基于SUI应用程序的发生器模块和科大讯飞语音识别开发包。基于单元选择和有限域的语音合成使用的是科大讯飞语音合成系统。我们已经开发了一个工具包,它包含了所有建立并运行SUI信息访问应用程序的必要程序和文件。这些组件有: 1)领域管理器访问给定应用程序或代理生成代码。 2)语音识别产生语法文件,该文件是用来执行SUI交互模式并且和数据库内容一致。 3)科大讯飞语音识别器产生一个和语法保持一致的语言模型及发音词典。 4)适当联系不同对话系统中的知识,多个SUI应用程序就不会干扰其他应用程序。 针对特定应用程序设置的变量是由扩展BNF即ABNF(Augmented Backus-Naur Form)文件插入到不同组件中去的,程序开发者可以手动构造,构造完成以后,可以用语法检查器来检查ABNF文档的正确性。如图2是SUI领域发生器的处理流程。 2.2 SUI语言 2.2.1 词典 SUI应用程序词典包括两个部分:通用关键词集合和一组特定领域应用程序专用词汇。 图1 SUI领域发生器 特定应用程序词汇的规模和内容,是由各个应用程序的功能和复杂性决定的,通常要比SUI关键词集合要大得多。如果要成为真正的通用接口,SUI模式包含的关键词集必须是小规模的,这样才能使非技术用户感到舒服易于使用。选择的一般原则是:有简单明确的含义以及同时在自然音上相对好区分,而且做了用户调查,来研究我们选取的关键词的适合度并根据用户的建议选取替代的关键词。保持SUI关键词数量尽可能少是必要的,一方面是方便用户的学习,另一方面有利于用户的记忆,使其最小化。 2.2.2 短语 在SUI系统中,访问应用程序或设备,最基本的动作是查询,其基本形式是由若干“槽+值”对组成的短语。“槽+值”的短语格式使语义解析的工作变得简单并大体上遵循了自然说话的形式。当短语被用作指定一个槽值时,它的输入输出形式是“是”。用户查询某个槽属性时其输入输出形式:“查询?”为了避免带给用户机械、命令式控制的感觉,SUI的输入,应该也具有自然语言的特点。例如,在合适的情况下,普通同义词会被接受(例如,在三维态势应用程序中,军标和目标是代表相同的槽)。 2.2.3 语法 有效的SUI用户输入语句,大都是由任意数量的

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档