CN114974245B 语音分离方法和装置、电子设备和存储介质（南京地平线机器人技术有限公司）.docxVIP

下载本文档

0
0
约2.05万字
约 29页
2026-01-11 发布于重庆
举报

CN114974245B 语音分离方法和装置、电子设备和存储介质（南京地平线机器人技术有限公司）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114974245B(45)授权公告日2025.07.01

(21)申请号202210609847.4

(22)申请日2022.05.31

(65)同一申请的已公布的文献号申请公布号CN114974245A

(43)申请公布日2022.08.30

(73)专利权人南京地平线机器人技术有限公司地址210046江苏省南京市经济技术开发

区兴智科技园A栋20层

(72)发明人胡玉祥朱长宝余凯

(74)专利代理机构北京思源智汇知识产权代理有限公司11657

专利代理师李林莎

G10L21/0216(2013.01)

G10L21/0272(2013.01)

G10L25/27(2013.01)

H04L9/40(2022.01)

GO6T7/00(2017.01)

(56)对比文件

WO2020232867A1,2020.11.26USB1,2019.01.08

审查员宋玉香

(51)Int.CI.

G1OL15/22(2006.01)

G1OL15/25(2013.01)权利要求书2页说明书11页附图3页

(54)发明名称

语音分离方法和装置、电子设备和存储介质

(57)摘要

CN114974245B本公开实施例公开了一种语音分离方法和装置、电子设备和存储介质，其中，该方法包括：获取空间区域内的第一混合语音信号和第一图像序列；对第一图像序列进行图像质量检测，确定第一图像序列的图像质量；响应于第一图像序列的图像质量满足预设标准，利用第一语音分离模型对输入的第一混合语音信号和第一图像序列进行处理，获得第一语音信号；响应于第一图像序列的图像质量不满足预设标准，利用第二语音分离模型对第一混合语音信号进行处理，获得第二语音信号。本公开实施例可以对第一混合语音信号进行语音分离，并可以确定分离后语音信

CN114974245B

获取空间区域内的第一混合语音信号和第一图像序列

对第一图像序列进行图像质量检测，确定第一图像序列的图像质量

响应于第一图像序列的图像质量满足预设标准，利用第一语音分离模型对输入的第一混合语音信号和第一图像序列进行处理，获得第一语音信号

响应于第一图像序列的图像质量不满足预设标准，利用第二语音分离模型对第一混合语音信号进行处理，获得第二语音信号

CN114974245B权利要求书1/2页

1.一种语音分离方法，包括：

获取空间区域内的第一混合语音信号和第一图像序列，其中，所述第一混合语音信号包括第一人物的语音信号和第二人物的语音信号，所述第一图像序列为在所述空间区域采集的包括空间内人物的图像序列；

对所述第一图像序列进行图像质量检测，确定所述第一图像序列的图像质量；

响应于所述第一图像序列的图像质量满足预设标准，利用第一语音分离模型对输入的所述第一混合语音信号和所述第一图像序列进行处理，获得第一语音信号，其中，所述第一语音信号包括所述混合语音信号分离出的至少一路语音信号；

响应于所述第一图像序列的图像质量不满足所述预设标准，利用第二语音分离模型对所述第一混合语音信号进行处理，获得第二语音信号，其中，所述第二语音信号包括所述混合语音信号分离出的至少一路语音信号。

2.根据权利要求1所述的语音分离方法，其中，所述对所述第一图像序列进行图像质量检测，确定所述第一图像序列的图像质量，包括：

获取所述第一图像序列对应的图像信号，确定所述图像信号的图像信号质量；

基于所述第一图像序列的各图像帧，确定所述第一图像序列的图像内容质量；

基于所述图像信号质量和所述图像内容质量，确定所述第一图像序列的图像质量。

3.根据权利要求2所述的方法，其中，所述基于所述第一图像序列的各图像帧，确定所述第一图像序列的图像内容质量，包括：

基于所述第一图像序列的各图像帧，确定所述第一人物和/或所述第二人物在所述各图像帧中的唇部遮挡状态；

基于所述唇部遮挡状态，确定所述图像内容质量。

4.根据权利要求3所述的方法，其中，所述基于所述图像信号质量和所述图像内容质量，确定所述第一图像序列的图像质量，包括：

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN114974245B 语音分离方法和装置、电子设备和存储介质（南京地平线机器人技术有限公司）.docxVIP