CN114639377B 一种综合性教学视频语音提取文本方法（中南大学）.docxVIP

下载本文档

0
0
约1.38万字
约 22页
2026-01-23 发布于重庆
举报

CN114639377B 一种综合性教学视频语音提取文本方法（中南大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114639377B(45)授权公告日2025.01.10

(21)申请号202210285395.9

(22)申请日2022.03.23

(65)同一申请的已公布的文献号申请公布号CN114639377A

(43)申请公布日2022.06.17

(73)专利权人中南大学

地址410083湖南省长沙市岳麓区麓山南

路932号

(72)发明人马慧敏李涵宇朱红求魏玮张忠腾南亦雄葛雨晴刘逸峰

(74)专利代理机构长沙市融智专利事务所(普通合伙)43114

专利代理师欧阳迪奇

(51)Int.CI.

G1OL15/16(2006.01)

G10L15/18(2013.01)

G10L15/26(2006.01)

G10L15/20(2006.01)

G10L15/06(2013.01)

(56)对比文件

CN109767759A,2019.05.17

CN112287323A,2021.01.29审查员朱思韦

权利要求书3页说明书7页附图2页

(54)发明名称

一种综合性教学视频语音提取文本方法

(57)摘要

CN114639377B本发明公开了一种综合性教学视频语音文本提取方法。首先基于训练过的CLDNN模型来对视频中的语音进行识别；然后基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除，以得到去噪后的语音。最后采用训练后的端到端的语音识别模型进行后端处理，其中端到端的语音识别模型基于Conformer建立，将去噪后的语音输入至语音识别模型，然后对输出结果进行自然语言处理，从而得到文本内容。本发明针对教学视频的特性，通过包括语音活动检测、语音增强和后端处理三个部分的综合方案来实现文本提取，同时引入NoisyStudentTraining半监督学习方法以使得模型可以在大规模无标签

CN114639377B

视频中的

音频数据

前端处理

VAD语音活动检测

DAN语音增强

语音样本数据集

后端处理

特征输入

端到端识别

自然语言处理

(NLP)

文本内容

CN114639377B权利要求书1/3页

1.一种综合性教学视频语音提取方法，其特征在于，包括以下步骤：

步骤1,基于训练过的CLDNN即卷积-LSTM-全连接神经网络模型来对视频中的语音进行识别，其中CLDNN模型是基于CLDNN_64模型，并以能够获取在时间和频率两个方面的特征信息的注意力模块替代CLDNN_64中原有LSTM;

步骤2,基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除，以得到去噪后的语音；

所述的步骤2中，双重对抗网络包括增强模型E、生成器G和判别器D;其中增强模型E为卷积循环网络，生成器和判别器均是基于DC-GAN架构建立，为增强模型E定义损失函数LE,为判别器D定义损失函数LD(E),即LD(E)表示用于衡量E(x)和s之间差距的方式

Lg=Esx)-OpdcumPnaosy)Is-E(x)]l12+AE(sx)-(PdcmPpas)D(s)-D(E(s))2

s表示无噪声语音序列即干净语音，Pc?ean对应增强模型产生的语音序列，s～Pc1ean代表s服从Pclean的序列分布，x表示有噪声的语音序列，E(x)表示经过增强模型生成的语音序列，Pnoisy表示有噪声语音序列，x～Pnoisy代表x服从pnoisy的序列分布，E(·)为求均值操作；(s,x)表示s和x的联合分布，λ为用于平衡重建和对抗损失的超参数；

损失函数Lp(c)和G的损失函数L分别为：

Lg=Ez~p?[D(G(z))-1]2

z是遵循标准高斯分布N(0,1)的d维随机向量，p?代表z的概率分布，G(z)为生成的语音序列，故Lp(G)表示衡量G(z)和s之间差异的方式；

所述步骤2中的双重对抗网络训练过程包括：

对抗增强：增强模型产生与实际干净语音相似的增强语音来欺骗判别器，并让判别器学习增强语音和干净语音之间最大的距离；同时使用功能均方误差f-MSE来代替对抗性损失项，以修正增强模型的损失函数；

对抗生成：判别器学习干净语音和增强语音之间的差异以及干净语音的分布，并正损失函数；

CN114639377B 一种综合性教学视频语音提取文本方法（中南大学）.docxVIP