基于深度神经网络的语音分离算法研究与应用.pdfVIP

下载本文档

0
0
约11.02万字
约 76页
2025-06-12 发布于江西
举报
版权申诉

基于深度神经网络的语音分离算法研究与应用.pdf

1、本文档共76页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要

随着互联网以及智能终端设备的大范围普及，各种基于移动互联网的智能应

用已经逐渐走入人们的日常生活，网络中的语音数据流量也迅速增长，使得语音智

能处理与分析相关技术逐渐成为研究热点，但实际应用场景中仍然有许多干扰声

源的存在，这些干扰声源极大的影响着语音识别等重要语音处理算法的性能，而语

音处理的结果决定着整体智能服务的准确性。语音分离是从包含两种或多种人声

以及噪声的混合语音信号中为每个说话人提取语音信号的一种技术手段，能有效

地扩展智能语音应用的应用场景，是语音前端处理的重要研究内容。

本文主要研究基于深度学习的单通道语音分离算法及其应用，通过梳理相关

研究的脉络，分析相关工作中存在的建模思路以及存在的缺陷，确定了本文要解决

的关键问题，并提出了多种模型模块设计。本文面向语音分离特征建模问题提出融

合使用跨域特征的方法，通过在模型的特征编码阶段将不同域特征融合，使得后续

的分离以及解码阶段所使用的特征图统一为该融合特征图，省去在解码阶段使用

不同域特征重构信号融合的步骤，有效提升了模型的性能。本文设计了多种融合模

块来实现跨域特征的融合，实验表明在无噪与含噪的环境下所有提出的跨域特征

融合方法都能有效的提升模型性能，在不匹配数据集上的测试结果表明所提出的

利用全局信息的方法有利于模型泛化性能的提升。本文面向说话人数量不定的应

用场景，借鉴已有工作的思路设计了基于跨域特征的说话人数量无关的语音分离

方法。实验结果表明在语音重叠率较高的情况下该模型能准确的预测出语句的说

话人数量，性能与输出固定数量的模型接近。

本文所提出的方法有效的提升了基于深度学习的单通道语音分离算法的性能，

拓展了应用场景。未来研究工作包括探索在模型的不同阶段使用本文所提出的跨

域特征融合模块、探索结合不同的特征提取方式、在更多说话人场景下的模型设计、

在低重叠率下的说话人计数器设计以及面向终端设备部署的模型轻量化研究等。

关键词：神经网络，语音分离，跨域特征，多说话人

ABSTRACT

WiththewidespreadpopularizationoftheInternetandintelligentterminal

equipment,variousintelligentapplicationsbasedonthemobileInternethavegradually

enteredpeoplesdailylife,andthespeechdataintheInternethasalsoincreasedrapidly,

makingspeechprocessingandanalysisrelatedtechnologiesgraduallybecomearesearch

topic.However,therearestillmanyinterferingsoundsourcesinpracticalapplication

scenarios.Theseinterferingsoundsourcesgreatlyaffecttheperformanceofimportant

speechprocessingalgorithmssuchasspeechrecognition,andtheresultsofspeech

processingdeterminetheaccuracyoftheoverallintelligentservice.Asatechnicalmeans

toextractspeechsignalsforeachspeakerfromamixedspeechsignalcontainingtwoor

morehumanvoicesandnoise,speechseparationcaneffectivelyexpandtheapplication

scenariosofspeechprocessingapplications.

Thisthesismainlystudiesthesingle-channelspeechseparation

您可能关注的文档

文档评论（0）

营销资料库 + 关注: 实名认证

文档贡献者

本账号发布文档部分来源于互联网，仅用于技术分享交流用，版权为原作者所有。 2，文档内容部分来自网络意见，与本账号立场无关。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于深度神经网络的语音分离算法研究与应用.pdfVIP