- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于MATLAB的特定人语音识别软件开发与设计.doc
基于MATLAB的特定人语音识别软件开发与设计
本文介绍了基于MATLAB的特定人语音 识别软件开发方法以及GUI界面设计,阐述了具体开 发设计的过程。本识别方法以Mel频率倒谱系数作为 特征参量,采用DTW技术进行识别,识别效果较好。 本软件仍有待改进的地方,如:在有背景噪声的条件 下如何提高识别率。
关键词:MATLAB;语音识别;Mel频率倒谱系数; DTW; GUI
:TN912.34 :A : 1007-9416 (2017) 04-0170-03
1引言
语音识别主要指让机器听懂人说的话,即在各种 情况下,准确的识别出语音的内容,从而根据其信息, 执行人的各种意图[1]。当今,语音识别产品在人机交 互应用中,已经占到越来越大的比例。语音识别系统 根据对说话人的依赖程度,可以分为特定人和非特定 人语音识别系统[2]。本文提出一种基于MATLAB的特 定人语音识别系统,通过测试,能够达到试验要求。
2系统功能及子模块介绍
基于MATLAB进行语音识别软件的开发与设计, 识别过程分为录入语音、预处理、端点检测(即提取 语音)、提取语音特征参数、与模板库中的特征参数逐 一进行比较,然后选取失真测度最小的作为识别结果 输出,其流程图如图1所示。
2.1录入语音
MATLAB中录入语音可以通过wavrecord函数来录
入语音。
2.2预处理
预处理包括预加重、分帧、对语音信号加
预加重。预加重就是把语音信号乘以一个高 通滤波器,用来对语音信号进行高频率提升,高通滤 波器用一阶FIR滤波器来实现,公式为:
预加重对于语音信号有两个作用:
增加一个零点,用来去除声门脉冲的高频频谱 下跌,使得语音信?频谱变得更加平滑,所提取的语音 特征符合原始声道模型:
由于是乘以一个高通滤波器,不但对高频提升 外,还把低频部分也进行衰减,同时降低基频对共振 峰的检测的干扰。
分帧。由于语音信号是时变的,处理时变的 信号计算非常复杂,也不容易观察到语音信号的特征。
但是在很短的时间内,即10ms-30ms内,语音信号可 以看成非时变的。这就用到了语音的分帧技术。如果 两帧不重叠,可能有一个跳变。为了使其平稳过渡, 在相邻两帧设置重叠部分。
3)加
3)加
语音信号经过采样后为,实际上是无
限长的,需要处理的量将会很大。但进行分帧处理过 后相当于乘以一个有限长的窗函数,这样就可以很好 的进行运算。加窗函数的数学表达式为:
函数一般具有低通特性,窗函数的不同将会有
不同的带宽和频谱泄漏。在语音分析中常用到的窗函 数为矩形窗,汉明窗(Hamming)和海宁窗(Hanning)。 本文采用的是汉明
2.3端点检测
在说话人识别的技术中,端点检测的好坏不仅关 系到计算量的大小,而且关系到识别的准确率。端点 检测的方法有如下几种:短时能量法、短时过零率、 短时自相关函数、双门限端点检测、能熵比端点检狈J。 本文采用双门限检测法,该方法结合了短时过零率和 短时能量法两种方法。
在开始进行端点检测前,首先为短时能量和过零 率分别确定两个门限。一个是较低的门限,其数值较 小,对信号的变化较敏感,很容易被超过。另一个是
比较高的门限,数值较大,信号必须达到一定的强度, 该门限才可能被超过。
2.4语音特征参数提取
语音信号的特征参数提取主要是提取每个人的发 音特征,个性特征。这些特征经过语音处理所表现的 就是共振峰,基音频率,频谱,平均基频,说同一句 子时间长短的差异。而语音信号的特征提取就是要把 这些参数提取出来,在训练阶段作为模板训练,形成 模板库保存起来。在识别阶段,把测试语音的特征参 数提取出来,与原来形成的模板库中的数据进行比较, 最后识别说话人身份。选取特征参数的好坏直接影响 到以后识别的准确率,因此如何准确完整的提取语音 特征参数是当今说话人识别所面临的一个难题。
在众多的特征参数方法中,经过比较最后选定 MFCC (Mel倒谱系数)做为特征提取的方法。它能很 好的反应每个人的听觉特性,且它与频谱的非特性关 系,决定了它是一种非常适合的特征参数。
MFCC提取语音信号特征参数的过程如图2所示。
语音快速傅里叶变换。
对进行过预处理过的每一帧信号进行FFT变换, 语音从时域数据变为频域数据,公式为:
计算谱线能量。
利用式(5)对每一帧语音信号进行FFT傅里叶变 换后的数据计算谱线的能量:
计算通过Mel滤波器组的能量。
通过Mel滤波组计算在该Mel滤波器中每帧谱线 的能量。在频域中相当把每帧的能量谱与Mel滤波器 的频域响应相乘并且相加:
利用式(7)计算DCT倒谱。
这样就求出了 MFCC参数,即求取语音信号的特 征参数的任务就完成了。
2.5动态时间规整(DTW)
在实际生活中,语音信号具有相当大的随机性, 即便是同一个人在不同时刻所讲的
您可能关注的文档
最近下载
- DB44T 2719-2025《有限空间智慧安全管控技术规范》.pdf VIP
- 河堤建设工程施工合同.doc VIP
- 2024年执业中药师考试复习资料重点知识点与背诵口诀.pdf VIP
- 职业院校课程思政与思政课程协同育人典型案例.pdf VIP
- 12D101-5(替代94D101-5)110kV及以下电缆敷设.docx VIP
- 北师大版小学六年级数学上册第1单元测试卷(有答案).docx VIP
- 第六章管式反应器.ppt VIP
- 六年级上册分数四则混合运算300题及答案.docx VIP
- 2024—2025学年河南省开封高级中学高一上学期第一次月考物理试卷.doc VIP
- 学校升旗台工程方案范文(3篇).docx VIP
文档评论(0)