相似语言环境下目标语音提取研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

现代计算机第30卷第14期

·84·ModernComputer2024年7月25日

文章编号:1007‑1423(2024)14‑0084‑05DOI:10.3969/j.issn.1007‑1423.2024.14.015

相似语言环境下目标语音提取研究

王智*

(广西民族大学电子信息学院,南宁530006)

摘要:针对实际应用中常见的相似语音分离问题,构建了一个新的数据库P⁃C以模拟相似语言环境。该数据库结合

了自制的重庆方言数据集CQSpeech和公开的中文数据集THCH30,以此来研究普通话与重庆方言混合语音的分离问

题。另外,为了充分利用语音特征,在CRN网络中嵌入说话人特征。首先通过模型训练大量数据以获取说话人特征,

然后将说话人特征与分离模型中的特征进行融合,这样能够有效地提高相似语言语音分离的清晰度和准确性。根据实

验验证,该模型在P⁃C数据库上展示了良好的分离效果。

关键词:相似语言;语音分离;数据集

0引言标说话人的辅助信息进行拼接,相位损失的问题

并没有得到很好的解决。2020年,Delcroix等[4]

在日常生活中,我们身处于由多种语音组

利用Tas‑Net的网络思路,将Speaker‑Beam模型

成的复杂声学环境中,例如来自多个说话人以

的STFT域特征替换为可以在模型中学习的解码

及生活噪音的混合,由于选择性机制和听觉注

器特征,避免了相位重建的问题,该模型使用

意力机制,人类可以很轻易地将注意力集中在

缩放自适应层来利用目标说话人的声纹信息对

目标说话人身上,从而很轻易地区分出每个人

混合语音特征进行加权缩放,以此来对分离网

各自说了什么话,即使是多人语音多种语言。[5]

络内部的行为进行调整。2020年,Xu等在

但对于智能机器来说,这并不是一件容易的事

Conv‑TasNet的设计思路上提出了SpEx模型,该

情。在复杂开放场景下,智能设备的语音交互

模型利用了三个不同长度的卷积核对混合语音

技术仍然没有达到让人满意的程度。实现不同尺度特征提取。

[1]

Zmolikova等提出了Speaker‑Beam模型,[6]

最近,目标语言提取(TLE)已被引入到将

该模型通过在分离网络中嵌入声纹信息来规避鸡尾酒会问题视为多语言场景的新任务,旨在

盲源分离的弊端,在语音分离过程中只关注单一将鸡尾酒会问题中的目标语音与其他语音隔离

说话人而降低了运算的代价。为优化语音幅度和开来,而与干扰语言以及说话者的数量无关。

[2]

时间变化的重建过程,Xu等在Speaker‑Beam模

您可能关注的文档

文档评论(0)

教师资格证、公共营养师持证人

本人专注ppt制作、办公模板编辑六年有余,可以根据客户需求做出高品质ppt、办公表格等模板,以及文案等。

领域认证该用户于2024年07月07日上传了教师资格证、公共营养师

1亿VIP精品文档

相关文档