- 1、本文档共76页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
摘要
随着互联网以及智能终端设备的大范围普及,各种基于移动互联网的智能应
用已经逐渐走入人们的日常生活,网络中的语音数据流量也迅速增长,使得语音智
能处理与分析相关技术逐渐成为研究热点,但实际应用场景中仍然有许多干扰声
源的存在,这些干扰声源极大的影响着语音识别等重要语音处理算法的性能,而语
音处理的结果决定着整体智能服务的准确性。语音分离是从包含两种或多种人声
以及噪声的混合语音信号中为每个说话人提取语音信号的一种技术手段,能有效
地扩展智能语音应用的应用场景,是语音前端处理的重要研究内容。
本文主要研究基于深度学习的单通道语音分离算法及其应用,通过梳理相关
研究的脉络,分析相关工作中存在的建模思路以及存在的缺陷,确定了本文要解决
的关键问题,并提出了多种模型模块设计。本文面向语音分离特征建模问题提出融
合使用跨域特征的方法,通过在模型的特征编码阶段将不同域特征融合,使得后续
的分离以及解码阶段所使用的特征图统一为该融合特征图,省去在解码阶段使用
不同域特征重构信号融合的步骤,有效提升了模型的性能。本文设计了多种融合模
块来实现跨域特征的融合,实验表明在无噪与含噪的环境下所有提出的跨域特征
融合方法都能有效的提升模型性能,在不匹配数据集上的测试结果表明所提出的
利用全局信息的方法有利于模型泛化性能的提升。本文面向说话人数量不定的应
用场景,借鉴已有工作的思路设计了基于跨域特征的说话人数量无关的语音分离
方法。实验结果表明在语音重叠率较高的情况下该模型能准确的预测出语句的说
话人数量,性能与输出固定数量的模型接近。
本文所提出的方法有效的提升了基于深度学习的单通道语音分离算法的性能,
拓展了应用场景。未来研究工作包括探索在模型的不同阶段使用本文所提出的跨
域特征融合模块、探索结合不同的特征提取方式、在更多说话人场景下的模型设计、
在低重叠率下的说话人计数器设计以及面向终端设备部署的模型轻量化研究等。
关键词:神经网络,语音分离,跨域特征,多说话人
ABSTRACT
WiththewidespreadpopularizationoftheInternetandintelligentterminal
equipment,variousintelligentapplicationsbasedonthemobileInternethavegradually
enteredpeoplesdailylife,andthespeechdataintheInternethasalsoincreasedrapidly,
makingspeechprocessingandanalysisrelatedtechnologiesgraduallybecomearesearch
topic.However,therearestillmanyinterferingsoundsourcesinpracticalapplication
scenarios.Theseinterferingsoundsourcesgreatlyaffecttheperformanceofimportant
speechprocessingalgorithmssuchasspeechrecognition,andtheresultsofspeech
processingdeterminetheaccuracyoftheoverallintelligentservice.Asatechnicalmeans
toextractspeechsignalsforeachspeakerfromamixedspeechsignalcontainingtwoor
morehumanvoicesandnoise,speechseparationcaneffectivelyexpandtheapplication
scenariosofspeechprocessingapplications.
Thisthesismainlystudiesthesingle-channelspeechseparation
您可能关注的文档
- 基于平面湿敏电容的非接触式位置传感器阵列设计.pdf
- 基于嵌入式的微弱电流信号采集系统的软件设计和实现.pdf
- 基于嵌入式控制器的浪涌抑制电路设计与实现.pdf
- 基于强化学习的低轨卫星网络智能路由算法.pdf
- 基于强化学习的多机协同干扰资源分配方法研究.pdf
- 基于强化学习的无人机三维空间路径规划研究.pdf
- 基于强化学习的无人机网络的资源分配和路径规划.pdf
- 基于轻量化模型的目标检测方法研究.pdf
- 基于轻量化深度神经网络的目标检测方法研究.pdf
- 基于区块链的联邦学习去中心化验证算法研究.pdf
- 芜湖市区中心软装方案.pdf
- 综合文学spanish liture paper西牙.pdf
- 知识讲解平面向量线性运算.pdf
- 有线双向电视业务系统.pdf
- 飞机系统冰雨水有意剩下空白a318 a319 a320 csn tf dsc.pdf
- 内容网络工作组txt.pdf
- 管线系统用户功能确认书smartpipet2查询统计.pdf
- redemittel zur diskussion演讲者进行讨论.pdf
- labview tm乐高思维风暴nxt advanced programming guide.pdf
- 课件2 x-03 p1 tablette murale tm verone平板电脑.pdf
文档评论(0)