基于ELM神经网络语音识别研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于ELM神经网络语音识别研究

基于ELM神经网络语音识别研究   摘要:ELM神经网络是一种新的神经网络,近几年来在数据拟合和模式识别等方面得到了广泛的研究。该算法的模型是基于单隐含层神经网络(SLFNs),相比需要经过长期迭代求解参数的其他网络,该算法只需要一次求解就能训练好网络参数,是一种快速训练算法。本文将该算法与时间规整相结合对语音进行识别研究,与SVM相比,ELM具有更快的训练速度,且识别效果良好。   关键词:语音识别 ELM SVM 时间规整   中图分类号:TN912.34 文献标识码:A 文章编号:1007-9416(2015)01-0000-00   近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。   其中涉及的主要过程分为三步,首先是信号的预处理,其中包括预加重、加窗分帧、端点检测等。然后对其进行特征提取,常用的特征提取方法有Mel频率倒谱系数[1](MFCC),其中MFCC具有较强的抗噪能力以及模拟人耳听觉特性,识别性能较LPCC有一定的提升。最后是对语音信号进行训练识别,目前比较流行的识别技术包括概率统计模型和模板匹配模型2种[2]。   当语音识别前两步方法相同时,得到的特征参数也相同,最后的训练效果取决于所用训练模型。在模板匹配模型中,比较经典的训练方法是人工神经网络(ANN)算法,该方法具有很多不同的网络,而不同的网络具有不同的优势和缺陷。本文采用的ELM就是一种ANN算法。   基于ELM的语音识别系统分为以下几个部分:语音信号的采集、预处理、语音信号特征参数的提取和ELM模型的训练和识别。   1 特征提取及后期处理   1.1 MFCC参数提取   MFCC是基于人的听觉机理来分析语音的频谱,人对频率的感觉并不是成线性对应关系,而是一种非线性对应关系。MFCC就是利用这种关系,将原来以Hz为单位的实际频率转换成Mel为单位的感知频率。   其具体转化关系如下:   MFCC参数计算流程如下:   (1)首先对信号进行预处理,一般包括预加重、分帧、加窗;   (2)对每帧信号进行快速傅里叶(FFT)变换,然后求其频谱,进而求得谱线的能量;   (3)把每帧信号谱线能量通过Mel滤波器,从而得到输出滤波器后的能量;   (4)对所有滤波器输出的能量做对数运算,再进一步做离散余弦变换DCT可得到MFCC参数。   具体原理框图如图1所示。   图1 MFCC参数提取原理框图   1.2 特征参数的时间规整   考虑提取后语音信号的帧数也不同,需要对特征矩阵进行降维,本文采用时间规整算法对数据进行降维。   若语音信号经过端点检测后有效语音帧数为n,为了使神经网络输入层节点个数固定,需要将其规整到m帧。建立一个时间规整网络,网络输入层有n个节点,最后输出层有m个节点,每个节点对应一帧语音特征向量。从第一层开始分别求相邻特征向量的距离,并把距离最近的两帧向量按照一定的权重合并为一帧送入下一层,而本层其余节点对应的帧向量则直接进入下一层。这样在第一层就少了一帧,按照这种方式每经过一层网络就会压缩一帧语音数据。最后经过n-m层网络后特征参数规整到m帧。   1.3 特征参数的归一化   数据归一化是神经网络预测前对数据常做的一种处理方法。本文采用MATLAB8.3中mapminmax函数对特征参数进行归一化,其公式为:   其中 为需要进行归一化处理的数据, 是一向量数据中的最小值, 是一向量数据中的最大值, 则代表处理后的数据。最后归一化后数据范围为(0,1)。   2 极限学习机   2006年,Huang等人提出了极限学习机算法(ELM),该算法是一种快速训练算法,它是在单隐含层神经网络基础上的一种改进算法。   具有 个隐节点的单隐层前向神经网络(SLFNs)的数学模型为   其中 是第 个隐含层结点相连的输入权值, 是第 个隐含层结点的偏差, 是第 个隐含层结点与输出层结点之间的权值。 表示关于输入 在第 个隐含层节点的输出。   给定 个不同样本 ,其中 , 。   若网络的实际输出等于期望输出,则有   上述N个等式可以写成如下矩阵形式   Huang证明[3]:如果激励函数无限可微时,建立网络时设置的输入层到隐含层的权值和阈值为随机数,不管训练多少次,训练稳定时隐含层到输出层的权值是固定不变的值。从而,SLFNs的训练过程,就是寻找线性系统 的最小二乘解 ,根据定理可知该线性系统的最小范数最小二乘解为 。其中 是隐含层输出矩阵H的Moore-Penrose广义逆。   ELM算法可总结如下[4]。   给定训练数据集 ,激活函数为 ,隐节点个数 。   

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档