- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别小车技术路线
李锦
由于在TMS320VC5402的基础上实现语音识别功能,需要对语音识别的算法进行深入了解,才能搭建合适的硬件平台,为以后的扩展做准备。现对DTW和基本的HMM语音识别算法理解如下:
由于DTW算法的计算量比较小,算法较简单,便于实现,而且在特定人语音识别方面可以达到非常好的效果,因此可以在这次小车制作过程中使用DTW算法。但如果要使小车对非特定人语音进行识别,DTW算法就很难达到较好的效果,必须采用HMM算法。
无论哪种算法对语音的前期处理工作都是一样的,必须经过预处理和参数提取工作!
假设小车能够完成“前”,“后”,“左”,“右”,“停”五个动作,那就需要分别对这五个单音节进行处理。
图1.语音识别模型
一、录音
用麦克风录取某人的发音,采用8kHz采样率,16Bits量化,单声道录制,发声时间为2秒。这样每个字就要大约采集15000个点,其中包括有用语音,噪声和非语音信号,五个字就需要对75000个点进行处理,每段语音均要经过下述步骤。
二、预处理
为了使用数字信号处理的方法对输入语音信号进行处理和分析,需要对原始语音进行常规加工,称为前端预处理。包括预滤波、增益控制、A/D转换、预加重、信号加窗等。
预滤波
对采样后的语音先预滤波,去掉工频干扰(50Hz或60Hz),然后进行归一化和预加重(6dB倍频程高频提升滤波器,如(1)式),以提升高频部分,使信号频谱变得平坦。
X(n)是原始信号序列,Y(n)是预加重后序列,是预加重系数,通常取值为0.9375。
2.归一化
(2)
3.加窗分帧
语音信号的时域特性是非平稳,时变的,但通过加窗分帧的“短时”处理将其分为20ms~30ms的短时信号,帧移为10ms,在这段时间内可以认为语音是平稳的,非时变的。本文用256点的汉明窗进行分帧,帧移为80点。这种短时处理的方法表示为
(3)
15000个点经过加窗分帧,每帧256点,帧移80点,大约可以分为85帧。
三、端点检测
本文通过计算每帧语音信号的短时能量和平均过零率,利用VUS算法对信号进行端点检测,找到语音的起点和终点。
其中,是每帧信号的帧长256;是表示第n帧加窗信号。
通过端点检测后得到的有用语音大约为40~50帧,每帧256个点。
四.特征提取
语音识别中不能将去噪和分帧后的信号直接识别,而是经过变换,提取每帧信号的特征参数,表示该语音段,进行识别。本文采用了常用的Mel尺度倒谱参数(Mel-scaled Cepstrurm Coefficients,或称为Mel频率倒谱参数,简称MFCC)作为识别的语音参数,该参数能够比线性预测倒谱系数(LPCC)更好的提高系统的识别性能。
(5)
MFCC参数是按帧计算的,流程如下:
将分帧后的信号依次通过FFT,取模的平方得到该帧信号的离散功率谱S(n)。
计算S(n)通过M个后的功率值,即计算和在各离散频率点上乘积之和,得到M个参数,
计算的自然对数,对计算其离散余弦变换,得到。
舍去代表直流成分的,取作为MFCC参数,K为MFCC的阶数。
本文预先设计的带通滤波器阶数M=24,MFCC参数K=24阶。
由于每一帧信号都可以提取出一帧24阶特征参数,得到大约50×24=1200的点,即1k的存储空间。那么对五个字需要大约5k的空间存放它们的特征参数。由于表示信号的特征参数是由滤波器的阶数决定的,9~12阶也完全可以表示一帧语音的特征参数,所以可以节省存储空间,在识别率方面还有待试验证明。
五、识别算法(DTW算法)
在提取了参考模板(ref(i).mfcc)的特征参数和测试模板(test)的特征参数后就需要进行比对,这是识别过程。
由于训练的语音虽然MFCC阶数一样,但是帧数不一样,所以识别起来就必须要考虑它们的维数(阶数×帧数)差异。假设一个参考模板(ref(i).mfcc)的特征参数可以表示为{R(1),R(2),…,R(m),…,R(M)},m为该训练语音的帧标号,测试模板(test)的特征参数可表示为{T(1),T(2),…,T(n),…,T(N)},n为该测试语音的帧标号,n=1为起点语音帧,n=N为终点语音帧,一般情况下N是不等于M的。比较T和R的相似度就是DTW算法的基本思想,记为D[T,R],距离越小相似度就越高,假设n和m分别为T和R的任意帧序号,则d[T(n),R(m)]可以表示这两帧矢量间的距离。选择一条从左下脚出发,右上脚结束的路线表示这两个模板间的距离。
图2.DTW算法搜索路径
假设这条路径依
您可能关注的文档
- 六.竞赛软、硬件平台及分析策略.doc
- 深入探讨南京邮电大学通达学院.doc
- 宝德小巨人NS系列四核及详解.doc
- 如何做好枣庄英才集聚工程申报书.doc
- 基于社保网上经办平台地址变更相应操作.doc
- 如何做好云南艺术学院2010年招生考试考生成绩查询.doc
- 汽车尾气分析及应用.ppt
- 2017年度天津高考语文试题及答案【最新Word版】.doc
- 南昌工学院实训室建设招标说明及相关分析.doc
- 二、网络互动教室(录播教室)技术要求.doc
- 2025赣西科技职业学院单招《数学》测试卷含答案详解【模拟题】.docx
- 2025辽宁医药职业学院单招《数学》模考模拟试题附答案详解(达标题).docx
- 中考数学几何专项练习:最值问题之隐圆(解析版).pdf
- 《精彩的马戏》说课设计2篇.pdf
- 2025赣州职业技术学院单招《数学》常考点试卷含答案详解(新).docx
- 2025赣州职业技术学院单招考试文化素质数学高频难、易错点题及参考答案详解(轻巧夺冠).docx
- 2025赣南卫生健康职业学院单招《物理》高分题库附参考答案详解【巩固】.docx
- 2025赣州职业技术学院单招《物理》通关考试题库及参考答案详解【最新】.docx
- 2025赣南卫生健康职业学院单招《物理》高分题库附参考答案详解【巩固】.docx
- 2025赣西科技职业学院单招《数学》真题【B卷】附答案详解.docx
最近下载
- 新时代人文经济学的基本理论框架.docx VIP
- 人工智能引论知到智慧树期末考试答案题库2024年秋浙江大学.docx VIP
- 2025年电工作业低压电工通用考试题库.docx VIP
- 研究智慧供热系统建设方案.pptx VIP
- 2024年低压电工作业模拟考试题库试卷及答案.doc VIP
- 智慧供热系统建设方案.pptx VIP
- 马工程教材《组织行为学》课件 第三章 群体心理与行为.pptx VIP
- 2025年低压电工作业模拟考试题库试卷及答案.docx VIP
- 5.2 放射性元素的衰变(教学设计)高中物理(人教版2019选择性必修第三册).docx VIP
- 国家开放大学《证券投资分析》形考任务(1-5)试题及答案解析.docx VIP
文档评论(0)