粒子群优化RBF神经网络语音识别研究.docVIP

下载本文档

3
0
约2.87千字
约 7页
2018-06-23 发布于福建
举报
版权申诉

粒子群优化RBF神经网络语音识别研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

粒子群优化RBF神经网络语音识别研究

粒子群优化RBF神经网络语音识别研究　　摘要：提出一种改进的径向基（RBF）神经网络，通过运用有监督的粒子群优化（PSO）聚类学习方法，来求解网络隐层基函数中心和宽度。并将此改进的RBF神经网络用于语音识别，构建了语音识别仿真系统。结果表明，与标准RBF神经网络相比，PSO优化的RBF神经网络在缩短训练时间的同时，具有较高的识别率。　　关键词：粒子群径向基神经网络语音识别　　中图分类号：TP391 文献标识码：A 文章编号：1007-9416（2013）04-0109-02 　　近年来，语音识别作为一种便捷的人机交互方式被大量研究，并在日常生活中得到广泛应用。大体上讲，语音识别就是在给定的语料库中找出与待识别词语相同的语料，其识别方法的选择对识别效果至关重要。语音识别的方法主要有3种：基于语音特征和声道模型的方法、模板匹配的方法和人工神经网络[1]。第1种方法出现较早，但由于其模型过于复杂，并未得到实际应用。第2种方法较为成熟，主要通过动态时间规整（DTW）、隐马尔可夫模型（HMM）和矢量量化（VQ）技术实现[2]。第3种方法充分利用人工神经网络较强的分类能力和输入——输出映射能力，非常适合解决语音识别这类难以用算法描述而又有大量样本可供学习的问题[3]。　　因此，本文将智能领域广泛使用的RBF神经网络运用到语音识别中，针对RBF神经网络隐层基函数的中心值和宽度随机确定的缺陷，运用具有全局寻优能力的粒子群算法（PSO）进行优化，来提高网络的泛化能力和收敛速度，从而提高识别率。实验结果表明，粒子群优化的RBF神经网络用于语音识别，能够显著提升识别性能。　　1 粒子群优化RBF神经网络　　1.1 RBF神经网络　　1.2 粒子群优化RBF网络算法　　因此，RBF神经网络隐层基函数中心值和宽度的优化过程就是PSO算法依据输入样本进行聚类的过程，其基本流程为：　　（1）参数初始化，包括粒子速度、位置，个体最优位置和全局最优位置；　　（2）据（5）式计算惯性权重；　　（3）据（3）（4）式更新粒子的速度和位置；　　（4）据（6）式计算各粒子适应度值，并更新个体最优位置和全局最优位置；　　（5）用全局最优粒子代替本次迭代适应度差的粒子；　　（6）反复迭代，直到最大迭代次数则停止，得聚类中心。　　2 PSO优化RBF语音识别系统　　语音识别过程主要包括信号预处理、特征提取、网络训练及识别[6]。预处理主要对语音进行分帧、预加重和加窗处理。特征提取用于提取语音中反映声学特征的相关参数，本文采用的是过零峰值幅度（ZCPA）。网络训练是在识别之前从语音样本中去除冗余信息，提取关键参数，再按照一定规则对数据加以聚类，形成模式库。网络识别是通过已训练好的网络，计算测试样本数据与模式库之间的相似度，判断出输入语音所属的类别。粒子群优化RBF神经网络的语音识别系统原理框图如图1所示。　　PSO优化RBF神经网络进行语音识别的实验步骤如下：　　第1步：提取特征。　　首先对用于训练和识别的各种信噪比的语音文件进行ZCPA特征提取。语音信号的采样频率为11.025kHz，每帧为256个采样点，经过时间和幅度归一化处理后，得到256维特征矢量序列。　　第2步：网络训练。　　网络训练的过程就是调整RBF神经网络基函数的中心和宽度以及隐层到输出层之间的连接权值。实验中，类别数为待识别的词汇数，如对10个词进行识别，则隐层节点数、输出层节点数和聚类中心均为10，如对20个词进行识别，则隐层节点数、输出层节点数和聚类中心均为20，以此类推，本文对10词、20词、30词和40词分别进行训练识别。利用PSO优化算法通过聚类获取隐层基函数的中心值和宽度，网络输出权值使用伪逆法得到。在PSO算法中，种群大小为20，最大进化迭代次数为40。　　第3步：网络识别。　　RBF神经网络训练好后，将测试集中的样本输入网络进行识别测试。每输入一个单词的特征矢量，经过隐层、输出层的计算后可得一个单词分类号，将这个分类号与输入词自带的分类号进行对比，相等则认为识别正确，反之，识别错误。最后将识别正确的个数与所有待识别单词数的比值作为最终的识别率。　　3 实验仿真分析　　本文运用matlab在PC机上仿真实现了PSO优化RBF神经网络的孤立词语音识别系统，选用在不同高斯白噪声条件下（包含15dB、20dB、25dB和无噪声），18个人分别录制40词各三次，形成实验语音数据，实验时选其中10人的10词、20词、30词、40词语音数据分别作为训练样本，另外8个人对应的10词、20词、30词、40词语音数据分别作为测试样本进行实验，得到了不同噪声和词汇量下的粒子群优化RBF神经网络的语音识别结