- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE
PAGE1
声音事件定位和检测技术的研究与设计
摘要
随着智能设备和互联网技术的高速发展,SELD技术在安全监控、智能家居、智能交通等领域均有广泛应用。传统的SELD技术依赖单一音频特征,采用浅层模式,对多声源混响、噪声干扰、音频源运动等问题解决能力较弱。近年来,采用卷积神经网络(CNN)、循环神经网络(RNN)、Transformeretc.等深度学习技术,可较好地解决时变信息、长时序列、提升定位精度等问题。然而,在多动态变化环境中如何进一步增强模型鲁棒性、定位准确度成为研究核心问题。
本文构建了基于深度学习的SELD模型,利用卷积神经网络(CNN)进行特征提取及时间建模的特征模块(RNN/Transformer),实现音频事件和声源定位,并运用多任务训练框架,同时实现音频事件检测和声源定位。
??研究结果表明,本文提出的模型对于复杂背景音、多个说话人同时说话的环境,要比普通的机器学习方法或其他深度学习算法表现得更好,尤其是对于识别出的声音活动个数和声源个数的准确性,即模型对于背景噪声的容错效果较好。该模型效果还用模块分解、特征合并实验和噪声实验等多种手段进行验证,证实其用于实际应用中具有较大的潜力。本文为在智能环境中对声音活动检测以及定位提供了新的思路和参考,同时也为今后有关工作奠定基础。
关键词
声音事件检测;声源定位;深度学习;多任务学习
Abstract
WiththecontinuousandrapiddevelopmentofsmartdevicesandInternettechnologynowadays,SELDtechnologyhasbeenwidelyusedinfieldssuchassecuritymonitoring,smarthome,andintelligenttransportation.TraditionalSELDtechnologyreliesonasingleaudiofeatureandshallowmodel.Whensolvingproblemssuchasmulti-sourcereverberation,noiseinterference,andmobilesoundsources,Itsabilityisratherlimited.Inrecentyears,deeplearningtechniquessuchasconvolutionalneuralnetworks,recurrentneuralnetworks,andtransformershavedemonstratedexcellentperformanceinprocessingtime-varyinginformation,long-termsequences,andimprovingpositioningaccuracy.However,enhancingtherobustnessandpositioningaccuracyofmodelsinhigh-dynamicenvironmentsremainsacorechallengeinresearchtothisday.
ASELDmodelrelyingondeeplearning.Thismodelusescnnforfeatureextractionandrnnortransformerfortemporalmodelingtoachievesynchronousdetectionandlocationofsoundevents.Moreover,amulti-tasktrainingframeworkisadoptedtooptimizethetwotasksofdetectionandlocationtogether.
Theresultsoftheexperimentshowthatthismodelperformsbetterthantraditionalmachinelearningmethodsandotherdeeplearningalgorithmsincomplexacousticenvironmentswithbackgroundnoiseandoverlappingspeakers.Notably,itachieveshigh
文档评论(0)