CN114639377B 一种综合性教学视频语音提取文本方法 (中南大学).docxVIP

  • 0
  • 0
  • 约1.38万字
  • 约 22页
  • 2026-01-23 发布于重庆
  • 举报

CN114639377B 一种综合性教学视频语音提取文本方法 (中南大学).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114639377B(45)授权公告日2025.01.10

(21)申请号202210285395.9

(22)申请日2022.03.23

(65)同一申请的已公布的文献号申请公布号CN114639377A

(43)申请公布日2022.06.17

(73)专利权人中南大学

地址410083湖南省长沙市岳麓区麓山南

路932号

(72)发明人马慧敏李涵宇朱红求魏玮张忠腾南亦雄葛雨晴刘逸峰

(74)专利代理机构长沙市融智专利事务所(普通合伙)43114

专利代理师欧阳迪奇

(51)Int.CI.

G1OL15/16(2006.01)

G10L15/18(2013.01)

G10L15/26(2006.01)

G10L15/20(2006.01)

G10L15/06(2013.01)

(56)对比文件

CN109767759A,2019.05.17

CN112287323A,2021.01.29审查员朱思韦

权利要求书3页说明书7页附图2页

(54)发明名称

一种综合性教学视频语音提取文本方法

(57)摘要

CN114639377B本发明公开了一种综合性教学视频语音文本提取方法。首先基于训练过的CLDNN模型来对视频中的语音进行识别;然后基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音。最后采用训练后的端到端的语音识别模型进行后端处理,其中端到端的语音识别模型基于Conformer建立,将去噪后的语音输入至语音识别模型,然后对输出结果进行自然语言处理,从而得到文本内容。本发明针对教学视频的特性,通过包括语音活动检测、语音增强和后端处理三个部分的综合方案来实现文本提取,同时引入NoisyStudentTraining半监督学习方法以使得模型可以在大规模无标签

CN114639377B

视频中的

视频中的

音频数据

前端处理

VAD语音活动检测

DAN语音增强

语音样本数据集

后端处理

特征输入

端到端识别

自然语言处理

(NLP)

文本内容

CN114639377B权利要求书1/3页

2

1.一种综合性教学视频语音提取方法,其特征在于,包括以下步骤:

步骤1,基于训练过的CLDNN即卷积-LSTM-全连接神经网络模型来对视频中的语音进行识别,其中CLDNN模型是基于CLDNN_64模型,并以能够获取在时间和频率两个方面的特征信息的注意力模块替代CLDNN_64中原有LSTM;

步骤2,基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音;

所述的步骤2中,双重对抗网络包括增强模型E、生成器G和判别器D;其中增强模型E为卷积循环网络,生成器和判别器均是基于DC-GAN架构建立,为增强模型E定义损失函数LE,为判别器D定义损失函数LD(E),即LD(E)表示用于衡量E(x)和s之间差距的方式

Lg=Esx)-OpdcumPnaosy)Is-E(x)]l12+AE(sx)-(PdcmPpas)D(s)-D(E(s))2

s表示无噪声语音序列即干净语音,Pc?ean对应增强模型产生的语音序列,s~Pc1ean代表s服从Pclean的序列分布,x表示有噪声的语音序列,E(x)表示经过增强模型生成的语音序列,Pnoisy表示有噪声语音序列,x~Pnoisy代表x服从pnoisy的序列分布,E(·)为求均值操作;(s,x)表示s和x的联合分布,λ为用于平衡重建和对抗损失的超参数;

损失函数Lp(c)和G的损失函数L分别为:

Lg=Ez~p?[D(G(z))-1]2

z是遵循标准高斯分布N(0,1)的d维随机向量,p?代表z的概率分布,G(z)为生成的语音序列,故Lp(G)表示衡量G(z)和s之间差异的方式;

所述步骤2中的双重对抗网络训练过程包括:

对抗增强:增强模型产生与实际干净语音相似的增强语音来欺骗判别器,并让判别器学习增强语音和干净语音之间最大的距离;同时使用功能均方误差f-MSE来代替对抗性损失项,以修正增强模型的损失函数;

对抗生成:判别器学习干净语音和增强语音之间的差异以及干净语音的分布,并正损失函数;

同时在训练过程中,采用梯度惩罚正则

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档