智能服务机器人语音交互的设计与实现.docx

智能服务机器人语音交互的设计与实现.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

?

?

智能服务机器人语音交互的设计与实现

?

?

杨国庆黄锐李健吕俊涛杜修明

摘要

随着科技的不断发展,在营业场所中智能服务机器人渐渐走进我们的生活。同时智能服务机器人的出现给我们的生活也带来了诸多便利。本文分析了智能服务机器人语音交互控制的应用需求,基于微软语音应用程序接口设计开发了一套人机语音交互控制系统。详细阐述了系统的设计思想及关键步骤,重点包括语音识别、语音合成、语法规则创建为维护等方面的内容,并就如何进一步提高识别率进行了研究。

关键词

智能服务机器人;人机交互;语音识别;语音应用程序接口

中图分类号:TP242????文献标识码:A

DOI:10.19694/j.cnki.issn2095-2457.2020.09.052

0引言

使用机器人进行服务,不但会让营业场所添色,更能够体现现代化、科技感。目前,智能服务机器人可以实现集自主引导、互动交流等功能为一体的一系列“类人”活动,智能服务机器人的出现,不仅节省了人力和时间成本,还展现了当下智能时代感[1-2]。

智能服务机器人采用最前沿的技术与智能设备、人机交互等相互应用,可提供更快更准的个性化服务,也为营业场所带来了全新的智能体验[3]。

目前,由于技术的逐步发展和多地推广应用。现场应用对机器人的控制方式提出了新的要求,希望能够以语音命令控制机器人,并且实现与机器人的交互对话。着眼于智能服务机器人语音交互控制的功能需求,本文以语音识别和语音合成的应用开发为手段,实现了可靠快捷的机器人语音控制与交互会话。

1功能概述与性能指标

对机器人的交互控制是让机器人识别接收到的有效对话和语音操作指令,根据识别结果做出应答或完成指定操作[4-5]。

利用语音识别技术正确识别操作人员发出的语音指令,再根据识别结果判断语音指令的类型。语音指令有两种类型,一种是控制指令,即让机器人完成指定的操作,如“开始充电”、“停止充电”、“开启超声”等进而根据识别结果做出应答或执行指定的操作;正确识别到控制指令需要控制机器人完成对应操作。另外一种指令是应答指令,如“你叫什么名字”、“你会做什么”等,识别到这类指令后机器人需要根据事先设定好的内容应答。

为适应现场应用需求,语音交互控制系统应满足以下性能指标:

(1)唤醒词的唤醒率95%;

(2)近场通用场景识别率98%;

(3)远场通用场景识别率95%;

(4)识别结果响应时间低于200ms。

2流程设计

分析机器人语音交互控制的功能需求,为实现该系统可将其分解为语音采集、语音识别、对话应答和执行操作等四个模块。

2.1语音采集

利用声音传感器采集交互语音信号,提供给后续环节的进行分析处理。

2.2语音识别

通过对采集到的语音信号进行分析处理、提取特征进行比对识别出语音内容,然后据此判定是否是合法指令及指令类型,进而控制机器人做出相应的响应。

2.3对话应答

识别出合法的应答指令,在应答列表中搜索相应的应答内容,然后使机器人说出应答内容以实现人机对话。

2.4执行操作

通过语音识别确定合法的操作指令,向机器人发送指令完成相应的操作。

在上述诸环节中,语音信号采集技术成熟、结构简单,完成语音传感器(话筒)、采集卡(声卡)的物理连接,开发语音采集配套程序即可进行语音采集。语音识别是整个系统中的核心部分,对话应答和执行操作都依赖语音识别的结果。对话应答要求机器人具备说话能力,通过语音合成技术将应答内容转换为会话语音。执行操作部分是向机器人发布控制命令,可直接利用机器人已有的指令控制方式。语言交互控制的处理流程如图2所示。

3语音交互详细设计

由前述分析可知,实现机器人语音交互控制的关键是语音识别和用于对话应答的语音合成。结合系统需求和语音技术发展状况,采用基于现有语音开发包的方式实现了整个语音交互控制系统。

3.1选择开发方式

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,技术内容主要包括特征提取技术、模式匹配准则及模型训练技术三个方面[6]。客观地讲,尽管有一些公司提供了某些语音识别的商业应用,但真正高效可靠的语音识别技术仍然是一个技术难点,相对而言抗干扰性差、对语音输入要求高[7]。

目前常用的语音开发工具有微软公司的SAPI语言引擎和国内科大讯飞提供的InterReco语音识别系统。对机器人语音交互这类命令式识别而言,两者效果相当,因科大讯飞开发包成本高而采用微软的SAPI进行语音识别开发。

SAPI(SpeechApplicationProgrammingInterface)是微软语音开发包(MicrosoftSpeechSDK)提供的关于语音(Speech)处理的一套应用程序编程接口,包含了实现文字-语音识别(SpeechRecognitio

您可能关注的文档

文档评论(0)

138****8091 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档