如何做好语音识别小车技术路线.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别小车技术路线 李锦 由于在TMS320VC5402的基础上实现语音识别功能,需要对语音识别的算法进行深入了解,才能搭建合适的硬件平台,为以后的扩展做准备。现对DTW和基本的HMM语音识别算法理解如下: 由于DTW算法的计算量比较小,算法较简单,便于实现,而且在特定人语音识别方面可以达到非常好的效果,因此可以在这次小车制作过程中使用DTW算法。但如果要使小车对非特定人语音进行识别,DTW算法就很难达到较好的效果,必须采用HMM算法。 无论哪种算法对语音的前期处理工作都是一样的,必须经过预处理和参数提取工作! 假设小车能够完成“前”,“后”,“左”,“右”,“停”五个动作,那就需要分别对这五个单音节进行处理。 图1.语音识别模型 一、录音 用麦克风录取某人的发音,采用8kHz采样率,16Bits量化,单声道录制,发声时间为2秒。这样每个字就要大约采集15000个点,其中包括有用语音,噪声和非语音信号,五个字就需要对75000个点进行处理,每段语音均要经过下述步骤。 二、预处理 为了使用数字信号处理的方法对输入语音信号进行处理和分析,需要对原始语音进行常规加工,称为前端预处理。包括预滤波、增益控制、A/D转换、预加重、信号加窗等。 预滤波 对采样后的语音先预滤波,去掉工频干扰(50Hz或60Hz),然后进行归一化和预加重(6dB倍频程高频提升滤波器,如(1)式),以提升高频部分,使信号频谱变得平坦。 X(n)是原始信号序列,Y(n)是预加重后序列,是预加重系数,通常取值为0.9375。 2.归一化 (2) 3.加窗分帧 语音信号的时域特性是非平稳,时变的,但通过加窗分帧的“短时”处理将其分为20ms~30ms的短时信号,帧移为10ms,在这段时间内可以认为语音是平稳的,非时变的。本文用256点的汉明窗进行分帧,帧移为80点。这种短时处理的方法表示为 (3) 15000个点经过加窗分帧,每帧256点,帧移80点,大约可以分为85帧。 三、端点检测 本文通过计算每帧语音信号的短时能量和平均过零率,利用VUS算法对信号进行端点检测,找到语音的起点和终点。 其中,是每帧信号的帧长256;是表示第n帧加窗信号。 通过端点检测后得到的有用语音大约为40~50帧,每帧256个点。 四.特征提取 语音识别中不能将去噪和分帧后的信号直接识别,而是经过变换,提取每帧信号的特征参数,表示该语音段,进行识别。本文采用了常用的Mel尺度倒谱参数(Mel-scaled Cepstrurm Coefficients,或称为Mel频率倒谱参数,简称MFCC)作为识别的语音参数,该参数能够比线性预测倒谱系数(LPCC)更好的提高系统的识别性能。 (5) MFCC参数是按帧计算的,流程如下: 将分帧后的信号依次通过FFT,取模的平方得到该帧信号的离散功率谱S(n)。 计算S(n)通过M个后的功率值,即计算和在各离散频率点上乘积之和,得到M个参数, 计算的自然对数,对计算其离散余弦变换,得到。 舍去代表直流成分的,取作为MFCC参数,K为MFCC的阶数。 本文预先设计的带通滤波器阶数M=24,MFCC参数K=24阶。 由于每一帧信号都可以提取出一帧24阶特征参数,得到大约50×24=1200的点,即1k的存储空间。那么对五个字需要大约5k的空间存放它们的特征参数。由于表示信号的特征参数是由滤波器的阶数决定的,9~12阶也完全可以表示一帧语音的特征参数,所以可以节省存储空间,在识别率方面还有待试验证明。 五、识别算法(DTW算法) 在提取了参考模板(ref(i).mfcc)的特征参数和测试模板(test)的特征参数后就需要进行比对,这是识别过程。 由于训练的语音虽然MFCC阶数一样,但是帧数不一样,所以识别起来就必须要考虑它们的维数(阶数×帧数)差异。假设一个参考模板(ref(i).mfcc)的特征参数可以表示为{R(1),R(2),…,R(m),…,R(M)},m为该训练语音的帧标号,测试模板(test)的特征参数可表示为{T(1),T(2),…,T(n),…,T(N)},n为该测试语音的帧标号,n=1为起点语音帧,n=N为终点语音帧,一般情况下N是不等于M的。比较T和R的相似度就是DTW算法的基本思想,记为D[T,R],距离越小相似度就越高,假设n和m分别为T和R的任意帧序号,则d[T(n),R(m)]可以表示这两帧矢量间的距离。选择一条从左下脚出发,右上脚结束的路线表示这两个模板间的距离。 图2.DTW算法搜索路径 假设这条路径依

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档