一种嵌入式语音识别模块的设计和实现.docVIP

下载本文档

9
0
约3.86千字
约 5页
2015-08-29 发布于安徽
举报
版权申诉

一种嵌入式语音识别模块的设计和实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种嵌入式语音识别模块的设计与实现时间：2012-02-09 17:08:24 来源：作者：服务机器人以服务为目的，因此人们需要一种更方便、更自然、更加人性化的方式与机器人交互，而不再满足于复杂的键盘和按钮操作。基于听觉的人机交互是该领域的一个重要发展方向。目前主流的语音识别技术是基于统计模式。然而，由于统计模型训练算法复杂，运算量大，一般由工控机、PC机或笔记本来完成，这无疑限制了它的运用。嵌入式语音交互已成为目前研究的热门课题。嵌入式语音识别系统和PC机的语音识别系统相比，虽然其运算速度和内存容量有一定限制，但它具有体积小、功耗低、可靠性高、投入小、安装灵活等优点，特别适用于智能家居、机器人及消费电子等领域。 1 模块整体方案及架构语音识别的基本原理如图1所示。语音识别包括两个阶段：训练和识别。不管是训练还是识别，都必须对输入语音预处理和特征提取。训练阶段所做的具体工作是通过用户输入若干次训练语音，经过预处理和特征提取后得到特征矢量参数，最后通过特征建模达到建立训练语音的参考模型库的目的。而识别阶段所做的主要工作是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较，然后把相似性最高的输入特征矢量作为识别结果输出。这样，最终就达到了语音识别的目的。图1 语音识别的基本原理现有的语音识别技术按照识别对象可以分为特定人识别和非特定人识别。特定人识别是指识别对象为专门的人，非特定人识别是指识别对象是针对大多数用户，一般需要采集多个人的语音进行录音和训练，经过学习，达到较高的识别率。基于现有技术开发嵌入式语音交互系统，目前主要有两种方式：一种是直接在嵌入式处理器中调用语音开发包；另一种是嵌入式处理器外围扩展语音芯片。第一种方法程序量大，计算复杂，需要占用大量的处理器资源，开发周期长；第二种方法相对简单，只需要关注语音芯片的接口部分与微处理器相连，结构简单，搭建方便，微处理器的计算负担大大降低，增强了可靠性，缩短了开发周期。语音识别技术在国内外的发展十分迅速。目前国内在PC应用领域，具有代表性的有：科大讯飞的InterReco2.0、中科模式识别的Pattek ASR3.0、捷通华声的jASRv5.5；在嵌入式应用领域，具有代表性的有：凌阳的SPCE061A、ICRoute的LD332X、上海华镇电子的WS-117。本文的语音识别方案是以嵌入式微处理器为核心，外围加非特定人语音识别芯片及相关电路构成。语音识别芯片选用ICRoute公司的LD33 20芯片。 2 硬件电路设计如图2所示，硬件电路主要包括主控核心部分和语音识别部分。语音进入语音识别部分后，将处理过的数据并行传输到主控制器，主控制器经过处理后，发送命令数据到USART，USART可用于扩展外围串行设备，如语音合成模块等。图2 硬件电路 2.1 语音识别电路图3为语音识别部分原理图，参照了ICRoute发布的LD3320数据手册进行设计。LD3320的内部集成了快速稳定的优化算法，不需外接Fla-sh、RAM，不需要用户事先训练和录音而完成非特定人语音识别，识别准确率高。图3 语音识别部分原理图图中，LD3320采用并行方式直接与STM32F103C8T6相接，均采用1kΩ电阻上拉，A0用于判断是数据段还是地址段；控制信号，复位信号以及中断返回信号INTB与STM32F103C8T6直接相连，采用10kΩ电阻上拉，辅助系统稳定工作；和STM32F103C8T6采用同一个外部8 MHz时钟；发光二极管D1、D2用于复位后的上电指示；MBS（引脚12）作为*偏置，接了一个RC电路，保证能输出一个浮动电压给*。 2.2主控制器电路本文的主控制器选用的是ST公司的STM32F103C8T6芯片。该芯片基于ARM Cottex-M3 32位的RISC内核，工作频率最高可达72 MHz，内置高速存储器（64 KB的闪存和20 KB的SRAM），丰富的增强I／O端口和联接到两条APB总线的外设。STM32系列提供了全新的32位产品选项，结合了高性能、实时、低功耗、低电压等特性，同时保持了高集成度和易于开发的优势，将32位MCU世界的性能和功效引向一个新的级别。 3 软件系统设计软件系统的设计主要包括3部分：主控单元的嵌入式操作系统μC／OS-II移植、LD3320的语音识别程序设计、对话管理单元的设计。 3.1 嵌入式操作系统μC／OS-II移植 μC／OS-II是一个源码公开、可移植、可固化、可裁剪、占先式的实时多任务操作系统。它是专门为计算机的嵌入式应用设计的，绝大部分代码采用C语言编写，具有执行效率高、占用空间小、实时性能优良和可扩展性强等特点，最小内核可至2 KB。在μC／OS-II中，任务的概念尤为重要，它是可剥夺型的内核，因