- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
特定人语音识别技术在汽车控制上的应用
作者:张志刚 陈昌巨
关键词: 特定人语音识别 预处理 LPCC MPCC
1 引言
从 20 世纪 50 年代开始对语音识别的研究开始,经过几十年的发展已经达到一定的
高度,有的已经从实验室走向市场,如一些玩具、某些部门密码语音输入等,随着D
SP和专用集成电路技术的发展,快速傅立叶变换以及近来嵌入式操作系统的研究,
使得特定人识别尤其是计算量小的特定人识别成为可能。因此,对特定人语音识别技
术在汽车控制上的应用的研究是很有前途的。
2 特定人语音识别的方法
目前,常用的说话人识别方法有模板匹配法、统计建模法、联接主义法(即人工神经
网络实现)。考虑到数据量、实时性以及识别率的问题,笔者采用基于矢量量化和隐
马尔可夫模型(HMM)相结合的方法。
说话人识别的系统主要由语音特征矢量提取单元(前端处理)、训练单元、识别单元和
后处理单元组成,其系统构成如图 1 所示。
图 1 系统构成
由上图也可以看出,每个司机在购买车后必须将自己的语音输入系统,也就是训练过
程,当然最好是在安静、次数达到一定的数目。从此在以后驾驶过程中就可以利用这
个系统了。
所谓预处理是指对语音信号的特殊处理:预加重,分帧处理。预加重的目的是提升高
频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。用具有 6d
B/倍频程的提升高频特性的预加重数字滤波器实现。虽然语音信号是非平稳时变的,
但是可以认为是局部短时平稳。故语音信号分析常分段或分帧来处理。
2.1 语音特征矢量提取单元
说话人识别系统设计中的根本问题是如何从语音信号中提取表征人的基本特征。即语
音特征矢量的提取是整个说话人识别系统的基础,对说话人识别的错误拒绝率和错误
接受率有着极其重要的影响。同语音识别不同,说话人识别利用的是语音信号中的说
话人信息,而不考虑语音中的字词意思,它强调说话人的个性。因此,单一的语音特
征矢量很难提高识别率。该系统在说话人的识别中采用倒谱系数加基因周期参数,而
在对控制命令的语音识别中仅采用倒谱系数。其中,常用的倒谱系数有 2 种,即 LP
C(线性预测系数)和倒谱参数(LPCC),一种是基于 Mel 刻度的 MFLL(频率倒谱系数)参
数(Mel 频率谱系数)。
对于 LPCC 参数的提取, 可先采用 Durbin 递推算法、格型算法或者 Schur 递推算法
来求 LPC 系数,然后求 LPC 参数。设第 l 帧语音的 LPC 系数为αn,则 LPCC 的参数
为
1<n≤p
其中 p 为 LPCC 系数的阶数,k 为 LPCC 系数的递推次数。
进一步的研究发现,引入一阶和二阶差分倒谱可以提高识别率。
对于 MPCC 参数的提取,若根据 Mel 曲线将语音信号频谱分为K 个频带,每个频带
的能量为θ(Mk),则 MFCC 参数为
1<n≤p
通过对 LPCC 和 MFCC 参数对识别率影响的实验比较,笔者选取 LPCC 参数及其一
阶和二阶差分倒谱稀疏作为特征参数。
基音周期估计的方法很多,主要有基于求短时自相关函数的算法、基于求短时平均幅
度差函数(AMDF)的算法、基于同态信号处理和线性预测编码的算法。笔者仅介绍基
于求短时自相关函数的算法。
设 Sw(n)是一段加窗语音信号,它的非零区间为 0<n≤n-1。Sw(n)的自相关函数称
为语音信号的 S(n)的短时自相关函数,用 Rw(l)表示,即
Rw(l)=
可知短时自相关函数在 Rw(0)处最大,且在基音周期的各个整数倍点上有很大的峰
值,选择合适的窗函数(窗长为 40ms 的 Hamming 窗)与滤波器(带宽为 60~900Hz 的
带通滤波器)后,只要找到自相关函数的第一最大峰值点的位置并计算它与零点的距
离,便能估计出基音周期。
2.2 训练单元
训练单元的功能是把事先收集到的语音利用一定的算法为每一个待识别的说话人训
练出与之相匹配的参数。针对说话人识别在汽车应用中的不同的要求,训练单元也分
为 2 部分:对说话人识别的训练和对待识别词的训练。
对于说话人识别部分的训练, 针对说话人的特征进行训练,为每个合法用户建立一
套或多套 HMM 模型,同时采用基于矢量量化(VQ)的方法,为每个合法用户建立VQ
码本。VQ 码本的设计采用 LBG 算法,初始码本的设置采用分裂法初始码本。
第 2 部分针对控制命令中用到的每个孤立的词条建立多个训练样本,或称为词条样
本,估计出该词条的 HMM 参数(一套或多套)。对一个 HMM
文档评论(0)