智能语音机器人的设计与实现.docVIP

下载本文档

38
0
约3.67千字
约 7页
2018-03-16 发布于北京
举报
版权申诉

智能语音机器人的设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

智能语音机器人的设计与实现　　摘要：介绍了智能语音机器人的总体设计，包括硬件设计和软件设计，对语音识别的方法、识别过程和语音合成过程进行了分析,重点介绍了语音识别中的端口检测方法，并给出了测试结果。　　关键词：机器人；语音识别；端点检测；语音合成　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2011)30-7498-03 　　Intelligent Voice of the Robot Design and Implementation 　　GUAN Hong, ZHANG Shuai, LEI Hong-le 　　(Shandong University of Science and Technology, Qingdao 266510, China) 　　Abstract: Introduces the overall design of the intelligent voice robot, including hardware design and software design, this paper analyzes the methods of speech recognition, the process of speech recognition, and speech synthesis process, introduces the method of Endpoint detection of speech recognition ,and test results are given. 　　Key words: robot; speech recognition; endpoint detection; speech synthesis 　　语音识别技术是通过机器人的理解和识别将人类的语音中的词汇内容转换为计算机可读的输入，例如文本或者命令，是一种多维模式识别和智能计算机接口的范畴。语音识别技术主要包括模式匹配准则、特征提取技术、及模型训练技术3个方面，所涉及的领域很广泛，包括模式识别、信号处理等。　　让机器人能够听懂人类的语言并且能够按照人的口头命令行动，从而实现人际交往一直以来都是人类的梦想，本文所研究的机器人语音识别，对于服务机器人的应用领域具有重要的现实意义。　　1 机器人整体设计　　整个系统采用CPU作为核心控制，外加音频输入输出模块、视频输入输出模块、触屏模块、显示模块、电源模块和电机驱动模块。　　运动模块主要由一系列电机驱动器组成，通过CAN总线与CPU进行通信，音频模块用来采集音频信息，视频模块用来采集视频图像信息，触屏模块和显示模块为机器人提供了良好的人机交互方式。各个部分的相互关系如图1所示。　　1.1 机器人的硬件设计　　机械动作模块（即硬件设计）包括左右手、左右肘、左右肩、腰部、头部的直流电机控制器，配合语音能够完成“握手”、“再见”、“两手自然交叉，放在腹前”等等正式的迎宾动作及舞蹈表演，机械动作模块通过CAN总线通信模块与主控器联系。机械动作模块关系如图2所示。　　1.2 机器人的软件设计　　该机器人的实现其全部功能的过程就是整个软件的实现过程，系统软件设计的基本流程，如图3。　　2 语音识别和端点检测的实现　　语音识别系统本质上是一种多维模式识别系统，语音识别主要包括预处理、特征提取、模式匹配三个部分。语音识别系统中最基本的模块就是语音端点检测，从一段语音信号中找出语音的终点和起点，使得计算机只处理和保存有用的语音信号。　　2.1 端点检测　　端点检测（end-pointer detection）是将语音数据（speech）从背景噪声中分离出来的一项技术，主要应用于语音识别领域，可以很大程度地降低识别器的运算量，从而能有效地提高识别效率以及识别效果。下面描述两级判别法定义和检测方法：　　1）短时能量　　语音端点检测一般是按照帧进行处理，每帧的长度各不相等。每个语音帧的短时平均能量En为：　　其中Wγ为帧长，Sw(n)为时刻n的加窗语音，但为了节约时间，减少计算量，而是采用每个点上幅度值的绝对值之和作为短时能量值：　　。　　2）短时平均过零率　　每个语音帧的短时平均过零率Zn为：　　，其中是符号函数。　　3）两级判别法　　两级判别法是利用语音的短时能量和平均过零率的性质进行的端口检测的，其步骤可以归结为：　　A.定阈值　　预先设定阈值Eh、El、Zth，其中Eh、El分别为高、低能量阈值，Zth为过零率阈值。由于采集的声音信号中最初的短时段多为无声或背景噪音，这样就可以利用已知为“静态”的最初几帧信号计算其过零率阈值Zth以及高、低能