基于深度学习的环境声音识别.docx

下载文档 降价啦

72
0
约3.89千字
约 7页
2019-01-12 发布于山东
举报
版权申诉
保障服务

基于深度学习的环境声音识别.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于深度学习的环境声音识别 Abstract： Environment Sound Recognition（ESR） is an efficient way to perceive surrounding scenes， which is widely used in many application scenarios like robotic navigation， mobile robots， audio retrieval， audio forensics and other wearable， context-aware applications. Classifiers used in most ESR problems is too simple to express features and classify the environment sounds accurately. Deep Neural Network（DNN） is a multilayer， efficient neural network， which also can provide a better way for describing features and solving pattern recognition problems. In this paper， deep learning is used in ESR problem， and for sufficient using audio features， different audio features are fusioned by feature-fusion method. Based on the above， the paper classifies the environment sound by training the Deep Belief Network（DBN）. Experimental results show that DBN and feature-fusion method could achieve better performance. 引言第一次以文学形式记载下来的环境声音识别的研究出现在1997年，具体是由来自麻省理工学院（Massachusetts Institute of Technology， MIT）的Sawhney和Maes首度提出并创建问世[1]，该研究的数据库使用包括人群、地铁、交通、人声和其它5种语料，而且利用循环神经网络（Recurrent Neural Network， RNN）和K-近邻（K-Nearest Neighbor， KNN）方法分别进行5种环境声音的分类，最终使用频带特征和RNN 分类器获得68%的准确率。1998年，同样来自MIT的研究者通过在去往超市途中和在超市内佩戴麦克风的方式获取连续的语音流，并对获取的语音流加以分割，得到不同的特征地点如街道、房间、超市等总共10类场景，为了进行环境场景的分类，研究选用了隐马尔科夫（Hidden Markov Model， HMM）[2]。同时，实验心理学领域的研究者着重研究人们理解和感知声音场景的过程，Ballas 发现识别音频场景的速度和准确率自然声音的刺激、发生频率等因素直接密切相关[3]。Peltonen等人则发现人们识别音频场景是受特定的声音事件的效果影响的，如人类说话声、汽车引擎轰鸣声等，同时还在识别25类声音场景中获得70%的准确率，平均响应时间为20 s[4]。在心理声学相关研究以及MIT研究者[1-2]的影响下，环境声音识别受到了广泛的关注。目前在环境声音识别问题中，已推出了一些成熟解决方法，如GMM、HMM、KNN 等，这些都属于常用的机器学习方法。但是这些架构都是浅层结构，可以对简单问题或者完全约束问题取得良好的效果。但是当处理复杂的自然信号如环境声音、自然语言时，由于缺少对复杂信号的表达能力和建模能力，浅层模型往往无法满足识别性能的要求。而从浅层学习到深度学习的过程则可以视作为机器学习的一条清晰发展脉络。 1962年，由Rosenblatt 第一次引入感知器，从此感知器作为神经网络中的一个分支概念[5] 而进入学界视野。在此基础上，Raudys提出单层感知器[6]，其中只包含输入层和输出层，且两者直接相连，而单层感知器也是一种最简单的神经网络。1989年提出的多层感知器[7]，组成结构即是在单层感知器的设计上加入了一层隐藏层，多层感知器是最早具备深层结构的神经网络。在1986年，由Rumelhart等人提出误差反向传播算法（Error Back Propagation， BP）[8]，给基于统计模型的机器学习带来了发展契机