- 0
- 0
- 约1.38万字
- 约 22页
- 2026-01-23 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN114639377B(45)授权公告日2025.01.10
(21)申请号202210285395.9
(22)申请日2022.03.23
(65)同一申请的已公布的文献号申请公布号CN114639377A
(43)申请公布日2022.06.17
(73)专利权人中南大学
地址410083湖南省长沙市岳麓区麓山南
路932号
(72)发明人马慧敏李涵宇朱红求魏玮张忠腾南亦雄葛雨晴刘逸峰
(74)专利代理机构长沙市融智专利事务所(普通合伙)43114
专利代理师欧阳迪奇
(51)Int.CI.
G1OL15/16(2006.01)
G10L15/18(2013.01)
G10L15/26(2006.01)
G10L15/20(2006.01)
G10L15/06(2013.01)
(56)对比文件
CN109767759A,2019.05.17
CN112287323A,2021.01.29审查员朱思韦
权利要求书3页说明书7页附图2页
(54)发明名称
一种综合性教学视频语音提取文本方法
(57)摘要
CN114639377B本发明公开了一种综合性教学视频语音文本提取方法。首先基于训练过的CLDNN模型来对视频中的语音进行识别;然后基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音。最后采用训练后的端到端的语音识别模型进行后端处理,其中端到端的语音识别模型基于Conformer建立,将去噪后的语音输入至语音识别模型,然后对输出结果进行自然语言处理,从而得到文本内容。本发明针对教学视频的特性,通过包括语音活动检测、语音增强和后端处理三个部分的综合方案来实现文本提取,同时引入NoisyStudentTraining半监督学习方法以使得模型可以在大规模无标签
CN114639377B
视频中的
视频中的
音频数据
前端处理
VAD语音活动检测
DAN语音增强
语音样本数据集
后端处理
特征输入
端到端识别
自然语言处理
(NLP)
文本内容
CN114639377B权利要求书1/3页
2
1.一种综合性教学视频语音提取方法,其特征在于,包括以下步骤:
步骤1,基于训练过的CLDNN即卷积-LSTM-全连接神经网络模型来对视频中的语音进行识别,其中CLDNN模型是基于CLDNN_64模型,并以能够获取在时间和频率两个方面的特征信息的注意力模块替代CLDNN_64中原有LSTM;
步骤2,基于训练过的双重对抗网络来对步骤1中所提取的语音进行噪声去除,以得到去噪后的语音;
所述的步骤2中,双重对抗网络包括增强模型E、生成器G和判别器D;其中增强模型E为卷积循环网络,生成器和判别器均是基于DC-GAN架构建立,为增强模型E定义损失函数LE,为判别器D定义损失函数LD(E),即LD(E)表示用于衡量E(x)和s之间差距的方式
Lg=Esx)-OpdcumPnaosy)Is-E(x)]l12+AE(sx)-(PdcmPpas)D(s)-D(E(s))2
s表示无噪声语音序列即干净语音,Pc?ean对应增强模型产生的语音序列,s~Pc1ean代表s服从Pclean的序列分布,x表示有噪声的语音序列,E(x)表示经过增强模型生成的语音序列,Pnoisy表示有噪声语音序列,x~Pnoisy代表x服从pnoisy的序列分布,E(·)为求均值操作;(s,x)表示s和x的联合分布,λ为用于平衡重建和对抗损失的超参数;
损失函数Lp(c)和G的损失函数L分别为:
Lg=Ez~p?[D(G(z))-1]2
z是遵循标准高斯分布N(0,1)的d维随机向量,p?代表z的概率分布,G(z)为生成的语音序列,故Lp(G)表示衡量G(z)和s之间差异的方式;
所述步骤2中的双重对抗网络训练过程包括:
对抗增强:增强模型产生与实际干净语音相似的增强语音来欺骗判别器,并让判别器学习增强语音和干净语音之间最大的距离;同时使用功能均方误差f-MSE来代替对抗性损失项,以修正增强模型的损失函数;
对抗生成:判别器学习干净语音和增强语音之间的差异以及干净语音的分布,并正损失函数;
同时在训练过程中,采用梯度惩罚正则
您可能关注的文档
- CN114505989B 树脂供给装置、树脂密封装置和树脂密封品的制造方法 (山田尖端科技株式会社).docx
- CN114506347B 一种自动驾驶通过施工路段的系统和方法 (重庆长安汽车股份有限公司).docx
- CN114511714B 物体识别装置和物体识别方法 (株式会社日立制作所).docx
- CN114514236B 含有全氟烷基的核酸及其制造方法 (Agc株式会社).docx
- CN114518846B 数据处理方法及装置 (阿里巴巴(中国)有限公司).docx
- CN114519274B 一种气驱油藏注采参数分步优化方法 (中国石油大学(华东)).docx
- CN114548031B 信号检测方法和装置 (长鑫存储技术有限公司).docx
- CN114559923B 一种无人驾驶车辆自动紧急避障系统及其控制方法 (湖北汽车工业学院).docx
- CN114565528B 一种基于多尺度和注意力机制的遥感影像降噪方法及系统 (中南大学).docx
- CN114580160B 一种用于含裂纹功能梯度板传热问题的非局部方法 (河海大学).docx
- 2026年中国面包车外壳行业市场数据调查、监测研究报告.docx
- 2026年中国建筑用全自动型接木机行业市场数据调查、监测研究报告.docx
- 2026年中国小口径高精密无缝钢管行业市场数据调查、监测研究报告.docx
- 2026年中国电动折叠自动门行业市场数据调查、监测研究报告.docx
- 2026年中国缸体水套芯行业市场数据调查、监测研究报告.docx
- 2026年中国建筑陶瓷机械设备行业市场数据调查、监测研究报告.docx
- 2026年中国环保采暖炉行业市场数据调查、监测研究报告.docx
- 2026年中国铝合金花杆行业市场数据调查、监测研究报告.docx
- 2026年中国羊尾勾线笔行业市场数据调查、监测研究报告.docx
- 2026年中国木制纸巾架行业市场数据调查、监测研究报告.docx
最近下载
- 《球墨铸铁井盖、箅子及附件》.pdf VIP
- 站用交直流电源系统技术规范第2部分:交流电源系统.pdf VIP
- 《环境监测技术》课件.ppt VIP
- Q JLX 04-2016_高分子聚合物双膨胀源抗裂剂.pdf VIP
- 站用交直流电源系统技术规范第5部分:交直流一体化电源系统.pdf VIP
- 武汉大学 2015-2016 学年第二学期期末考试《线性代数 A》(工科 54 学时) 期末试题.docx VIP
- 电能抄表IEC61107通信规约分析讲述.docx VIP
- (机关全称)机关档案分类方案、归档范围和保管期限表精选资料】.doc VIP
- 史上幼儿拼音描红、数字描红、基本笔画描红.docx VIP
- BS EN 14125-2013 国外国际规范.pdf VIP
原创力文档

文档评论(0)