基于改进神经网络异常声音自动识别系统探究.docVIP

基于改进神经网络异常声音自动识别系统探究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于改进神经网络异常声音自动识别系统探究

基于改进神经网络异常声音自动识别系统探究摘要:针对标准的BP神经网络对于声音信号识别率不高的问题,提出了一种用粒子群算法(PSO)优化BP神经网络的算法,建立了声音信号识别模型。PSO优化BP神经网络主要是用PSO来优化BP神经网络的初始权值和阈值,然后通过训练BP神经网络得到识别模型的最优解,优化后的神经网络具有误判率小、反应速度快等特点。在实验中把标准的BP神经网络和PSO优化后的BP神经网络用于八种异常声音的MFCC特征量和差分MFCC特征量识别,结果表明:在声音信号的识别系统中采用PSO优化BP神经网络的算法提高了系统的识别性能,达到了系统设计的目的。 关键词:声音识别;粒子群优化;BP神经网络;MFCC;差分MFCC 中图分类号:TP311.5文献标识码:A文章编号2013)004012002 基金项目:浙江省科技厅公益性项目(2011C31045) 0引言 人工神经网络作为一种最近几十年才兴起的意在模仿人类大脑结构和功能的智能信息处理系统,由于它具有良好的自适应、联想记忆和并行处理等特点已经在很多领域有着广泛的应用。将神经网络应用于声音信号的处理,可以解决高维空间和非线性模式等方面的识别问题,适用于对多个信号、特征量维数多的复杂声音的识别。而BP神经网络作为一种常用的多层神经网络,具有很好的泛化能力,并且隐含层的个数越多,系统的预测误差就越小,但同时在运行系统时所需要花费的时间也较多。本文结合声音信号的特点对常用的BP神经网络进行分析,针对常用的多层BP神经网络所具有的学习记忆不稳定以及收敛速度慢等方面的缺点,选用三层的BP神经网络来对声音信号进行识别处理,同时选用粒子群算法对BP神经网络进行优化处理。 1异常声音识别系统总体设计 异常声音识别系统主要包括声音信号采集模块、声音信号MFCC和差分MFCC特征量提取模块和基于神经网络的特征量识别模块3部分。其中声音信号采集模块主要是通过高灵敏度监控拾音头来对声音信号进行采集;声音信号MFCC特征量提取模块主要是对采集到的声音信号先进行预处理,然后再对信号进行MFCC特征量的提取;基于神经网络的MFCC特征量识别模块主要是先用样本MFCC特征量对神经网络进行训练,保存训练好的权值和阈值,然后再通过现场采集的声音信号的MFCC特征量和差分MFCC特征量进行在线测试,最后给出识别结果。 2异常声音信号采集及MFCC特征量和差分MFCC特征量提取 本实验所使用的数据来自于各种影视剧剪辑所得和人工现场实时采集。将数据库的异常声音分成两组,其中一组是训练样本,另外一组是测试样本。在用训练样本训练好神经网络后,在现场播放测试样本。 MFCC(Mel频率倒谱系数)就是根据人们耳朵听到的声音音调的高低和它的频率没有成线性正比关系的特点,用Mel频率尺度来模拟人耳的听觉特点。提取MFCC特征量的具体步骤如下: (1)先对采集到的声音信号进行预处理,主要是分帧加窗处理。由于声音信号是一种非平稳信号,一般要通过加窗分帧进行处理。声音信号的分帧主要是加权处理许多可以移动的具有固定长度的窗口,此处采用的窗口是汉明窗,窗函数表示如下: 3改进的神经网络 3.1BP神经网络 BP神经网络包括输入层、隐含层和输出层3部分。输入层通常表示各种声音信号的特征向量,输出层表示各种声音的类型。而隐含层就是学习输入层传递的信息,保存神经网络的连接权值和每个节点的阈值。隐含层一般分为单隐含层和多隐含层,隐含层数越多,网络拓扑结构越复杂;虽然这时系统的输出值更加接近真实值,但运行系统所要花费的时间也会大大增加。一般情况下单隐含层都能满足系统要求,因此本系统采用的是单隐含层。隐含层的节点数m通常按如下关系选择: m=[KF(]k*l[KF)](5) 其中k是输入层的节点数,l是输出层的节点数。 3.2粒子群算法 从表1中可以看出,使用MFCC_D特征量来识别8种异常声音比单独使用MFCC的识别率要高,同样PSO优化后的BP神经网络比没有优化的神经网络要高。 5结语 本文提出了基于PSO优化的BP神经网络的异常声音识别系统的设计,同时采用12阶MFCC和12阶差分MFCC来识别声音。经过实验验证该系统的识别率明显高于文中讨论的其它方法。由于本文讨论的声音都是在理想环境下获得的,在今后的研究中,要尝试在不同噪音背景下对所获得的声音进行处理。 参考文献: \[1\]阎平凡,张长水.人工神经网络与模拟进化计算\[M\].北京:清华大学出版社,2001. \[2\]武宁,肖星星,冯瑞.家用机器人的说话识别系统\[J\].计算机工程,2012(2). \[3\]栾少文

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档