语音识别技术开发项目技术开发方案.PDFVIP

下载本文档

957
0
约6.67千字
约 8页
2017-03-18 发布于四川
举报
版权申诉

语音识别技术开发项目技术开发方案.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

“语音识别技术开发”项目技术开发方案 1.开发项目目标、内容（概述）、形式、设计原则和要求 1.1 项目目标与内容本项目的开发目标是一个嵌入式平台语音识别系统核心技术研发。具体内容包括研发一套语音识别方案，并以此为基础，开发一个语音识别系统，实现本地语音识别（通用版本），并适配到甲方的芯片和其它移动平台上（适配版本）。原型系统以CI1006 芯片作为参考平台。 1.2 功能要求本方案需要实现以下功能： 1. 支持声学模型训练参数可配置 2. 支持快速订制待识别的命令词列表 3. 在不影响整体性能的条件下，命令词至少支持100 个 4. 引擎的返回结果带有置信度 5. 引擎获取到结果后能自动结束，无需依赖VAD 尾端点 6. 通用版本支持语音唤醒功能，支持快速订制唤醒词，唤醒词个数支持1~5 个，支持one-shot 功能（即唤醒和识别连续进行） 1.3 技术指标要求 1. 安静环境：窗户关闭，没有人声、电视、空调，厨房等各种噪音 2. 噪音环境：有人声、电视、空调、厨房等噪音以及从窗外传入的各种噪音。 2. 采用的技术方法、路线本项目的技术路线主要采用C、C++进行编程实现。对于语音识别模块，我们采用当前最先进深度神经网络技术和大规模语音数据构造高准确率语音识别系统，采用各种鲁棒训练方法实现对误闯入的检测。对于解码图构造模块，基于FST 相关算法与技术实现解码图的构造与压缩，实现实时快速解码，特别是采用各种加速策略提高解码速度。对于嵌入式解码器移植与实现模块，通过对原有 FST 库与矩阵计算库的裁剪与重写，实现解码器程序的压缩与去依赖化，从而使之适用于嵌入式平台。 3. 总体架构本项目所开发的语音识别系统由如下三个模块组成： ? 语言模型； ? 声学模型； ? 解码器；图1 是嵌入式语音识别系统的流程示意图，其中框图部分为嵌入式系统的主要功能。语言模型语音信号识别结果特征提取声学模型解码器字典图1 嵌入式语音识别系统处理流程示意图 4. 功能模块 4.1 特征提取模块特征提取模块是通过对语音信号进行一定的变换处理，去除信号中与人无关的冗余信息，保留语音识别相关语义部分的处理过程。目前常用的特征参数包括美尔倒谱系数（Mel-Frequency Cepstral Coefficents，MFCC ）、线性预测倒谱系数（Linear Prediction Cepstral Coefficients，LPCC ）、感知加权线性预测（Perceptual Linear Predictive ，PLP ）以及FilterBank （Fbank ）特征等，本项目中采取Fbank 特征作为深度神经网络模型的输入，其提取流程如图2 所示。语音信号快速傅里叶变换 Fbank特征美尔倒谱滤波取对数（FFT）图2 Fbank 特征提取流程图 4.2 声学模型声学模型以声学特征数据作为模型输入，通过一定的模型计算，输出各语音发音基元后验概率的数学模型。对语音基元分类或拟合的过程即为模型训练。本方案采用深度神经网络（DNN ）模型结构，深度神经网络是近年发展起来一项语音识别技术，它是具有多个隐藏层的多层感知机的深