如何做好语音识别小车技术路线.docVIP

下载本文档

62
0
约4.05千字
约 5页
2017-07-24 发布于湖北
举报
版权申诉

如何做好语音识别小车技术路线.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音识别小车技术路线李锦由于在TMS320VC5402的基础上实现语音识别功能，需要对语音识别的算法进行深入了解，才能搭建合适的硬件平台，为以后的扩展做准备。现对DTW和基本的HMM语音识别算法理解如下：由于DTW算法的计算量比较小，算法较简单，便于实现，而且在特定人语音识别方面可以达到非常好的效果，因此可以在这次小车制作过程中使用DTW算法。但如果要使小车对非特定人语音进行识别，DTW算法就很难达到较好的效果，必须采用HMM算法。无论哪种算法对语音的前期处理工作都是一样的，必须经过预处理和参数提取工作！假设小车能够完成“前”，“后”，“左”，“右”，“停”五个动作，那就需要分别对这五个单音节进行处理。图1.语音识别模型一、录音用麦克风录取某人的发音，采用8kHz采样率，16Bits量化，单声道录制，发声时间为2秒。这样每个字就要大约采集15000个点，其中包括有用语音，噪声和非语音信号，五个字就需要对75000个点进行处理，每段语音均要经过下述步骤。二、预处理为了使用数字信号处理的方法对输入语音信号进行处理和分析，需要对原始语音进行常规加工，称为前端预处理。包括预滤波、增益控制、A/D转换、预加重、信号加窗等。预滤波对采样后的语音先预滤波，去掉工频干扰(50Hz或60Hz)，然后进行归一化和预加重(6dB倍频程高频提升滤波器,如(1)式)，以提升高频部分，使信号频谱变得平坦。 X(n)是原始信号序列，Y(n)是预加重后序列，是预加重系数，通常取值为0.9375。 2.归一化（2） 3．加窗分帧语音信号的时域特性是非平稳，时变的，但通过加窗分帧的“短时”处理将其分为20ms～30ms的短时信号，帧移为10ms，在这段时间内可以认为语音是平稳的，非时变的。本文用256点的汉明窗进行分帧，帧移为80点。这种短时处理的方法表示为 (3) 15000个点经过加窗分帧，每帧256点，帧移80点，大约可以分为85帧。三、端点检测本文通过计算每帧语音信号的短时能量和平均过零率，利用VUS算法对信号进行端点检测，找到语音的起点和终点。其中，是每帧信号的帧长256；是表示第n帧加窗信号。通过端点检测后得到的有用语音大约为40～50帧，每帧256个点。四．特征提取语音识别中不能将去噪和分帧后的信号直接识别，而是经过变换，提取每帧信号的特征参数，表示该语音段，进行识别。本文采用了常用的Mel尺度倒谱参数(Mel-scaled Cepstrurm Coefficients，或称为Mel频率倒谱参数，简称MFCC)作为识别的语音参数，该参数能够比线性预测倒谱系数(LPCC)更好的提高系统的识别性能。 (5) MFCC参数是按帧计算的，流程如下：将分帧后的信号依次通过FFT，取模的平方得到该帧信号的离散功率谱S(n)。计算S(n)通过M个后的功率值，即计算和在各离散频率点上乘积之和，得到M个参数，计算的自然对数，对计算其离散余弦变换，得到。舍去代表直流成分的，取作为MFCC参数，K为MFCC的阶数。本文预先设计的带通滤波器阶数M＝24，MFCC参数K＝24阶。由于每一帧信号都可以提取出一帧24阶特征参数，得到大约50×24＝1200的点，即1k的存储空间。那么对五个字需要大约5k的空间存放它们的特征参数。由于表示信号的特征参数是由滤波器的阶数决定的，9～12阶也完全可以表示一帧语音的特征参数，所以可以节省存储空间，在识别率方面还有待试验证明。五、识别算法（DTW算法）在提取了参考模板（ref(i).mfcc）的特征参数和测试模板（test）的特征参数后就需要进行比对，这是识别过程。由于训练的语音虽然MFCC阶数一样，但是帧数不一样，所以识别起来就必须要考虑它们的维数（阶数×帧数）差异。假设一个参考模板（ref(i).mfcc）的特征参数可以表示为｛R(1),R(2),…,R(m),…,R(M)｝，m为该训练语音的帧标号，测试模板（test）的特征参数可表示为｛T(1),T(2),…,T(n),…,T(N)｝，n为该测试语音的帧标号，n＝1为起点语音帧，n＝N为终点语音帧，一般情况下N是不等于M的。比较T和R的相似度就是DTW算法的基本思想，记为D[T，R]，距离越小相似度就越高，假设n和m分别为T和R的任意帧序号，则d[T(n)，R(m)]可以表示这两帧矢量间的距离。选择一条从左下脚出发，右上脚结束的路线表示这两个模板间的距离。图2.DTW算法搜索路径假设这条路径依