CN114067793B 音频处理方法和装置、电子设备及可读存储介质 (北京百度网讯科技有限公司).docxVIP

  • 0
  • 0
  • 约1.8万字
  • 约 26页
  • 2026-01-15 发布于重庆
  • 举报

CN114067793B 音频处理方法和装置、电子设备及可读存储介质 (北京百度网讯科技有限公司).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114067793B(45)授权公告日2025.07.04

(21)申请号202111302400.4

(22)申请日2021.11.04

(65)同一申请的已公布的文献号申请公布号CN114067793A

(43)申请公布日2022.02.18

(73)专利权人北京百度网讯科技有限公司

地址100085北京市海淀区上地十街10号

百度大厦2层

(72)发明人赵情恩

(74)专利代理机构北京猷德知识产权代理有限公司16084

专利代理师范继晨

(51)Int.CI.

G1OL15/22(2006.01)

G1OL15/02(2006.01)

G10L15/16(2006.01)

G10L21/0272(2013.01)

G10L21/0308(2013.01)

G10L25/30(2013.01)

(56)对比文件

CN107919133A,2018.04.17

CN111986680A,2020.11.24审查员陈成

权利要求书2页说明书9页附图3页

(54)发明名称

音频处理方法和装置、电子设备及可读存储介质

(57)摘要

CN114067793B本公开提供了一种音频处理方法和装置、电子设备及可读存储介质,涉及语音处理技术领域,尤其涉及人工智能、语音技术、深度学习领域。具体实现方案为:获取待处理音频,其中,待处理音频包括:从多个声源采集到的初始音频数据,多个声源对应于多个对象;对待处理音频进行内容识别,得到内容向量和内容向量对应的时间信息;基于内容向量和时间信息对待处理音频进行分离,得到分离结果,其中,分离结果用于从初始音频数据中确定多个对象中每个对象分别对应的目标音频数据。通过上述实现方案,本公开达到了提高分离结果的准确性,增加整体特征

CN114067793B

获取待处理音频

对待处理音频进行内容识别,得到内容向量和内容向量对应的时间信息

基于内容向量和时间信息对待处理音频进行分离,得到分离结果

S102

S104

S106

CN114067793B权利要求书1/2页

2

1.一种音频处理方法,包括:

获取待处理音频,其中,所述待处理音频包括:从多个声源采集到的初始音频数据,所述多个声源对应于多个对象;

对所述待处理音频进行内容识别,得到内容向量和所述内容向量对应的时间信息;

基于所述内容向量和所述时间信息对所述待处理音频进行分离,得到分离结果,其中,所述分离结果用于从所述初始音频数据中确定所述多个对象中每个对象分别对应的目标音频数据;

其中,所述内容向量包括:预设粒度的多个文本的特征向量,所述时间信息包括:所述多个文本的时间戳,所述基于所述内容向量和所述时间信息对所述待处理音频进行分离,得到分离结果包括:基于每个文本的时间戳对所述待处理音频进行切割,得到多个目标音频;基于所述多个文本的特征向量对所述多个目标音频进行分离,得到所述分离结果;

其中,音频分离模型至少包括:第一层双向长短时记忆模型和第二层双向长短时记忆模型,基于所述多个文本的特征向量对所述多个目标音频进行分离,得到所述分离结果,包括:将所述多个目标音频输入至所述第一层双向长短时记忆模型进行处理,得到第一输出向量;将所述第一输出向量和所述多个文本的特征向量进行拼接,得到拼接向量;将所述拼接向量输入至所述第二层双向长短时记忆模型进行处理,得到所述分离结果。

2.根据权利要求1所述的方法,其中,所述对所述待处理音频进行内容识别,得到内容向量和所述时间信息包括:

利用强制对齐模型对所述待处理音频进行识别,得到文本信息和所述时间信息;

利用特征生成模型对所述文本信息进行特征提取,得到所述内容向量。

3.根据权利要求1或2所述的方法,还包括:

获取训练样本,其中,所述训练样本包括训练音频和所述训练音频对应的标注结果,所述训练音频包括:从多个训练声源采集到的音频数据,所述多个训练声源对应于多个训练对象;

对所述训练音频进行内容识别,得到所述训练音频对应的训练向量和所述训练向量对应的时间信息;

基于所述训练向量和所述训练向量对应的时间信息对所述训练音频进行分离,得到第一预测结果,其中,所述第一预测结果用于表征所述训练向量对应的训练对象的概率;

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档