- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN114842833B(45)授权公告日2025.07.11
(21)申请号202210514378.8
(22)申请日2022.05.11
(65)同一申请的已公布的文献号申请公布号CN114842833A
(43)申请公布日2022.08.02
(73)专利权人合肥讯飞数码科技有限公司
地址230000安徽省合肥市(安徽)自由贸
易试验区合肥市高新区望江西路666号人工智能云服务平台研发楼
(72)发明人宣璇方磊周振昆胡鹏方四安
(74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙)44280
专利代理师刘希
(51)Int.CI.
G10L15/02(2006.01)
G10L15/06(2013.01)
G10L15/26(2006.01)G10L19/04(2013.01)
(56)对比文件
CN112086087A,2020.12.15
审查员马晓
权利要求书2页说明书13页附图4页
(54)发明名称
语音识别方法及相关装置、电子设备和存储介质
(57)摘要
CN114842833B本申请公开了一种语音识别方法及相关装置、电子设备和存储介质,其中,语音识别方法包括:获取待识别语音;基于语音识别模型对待识别语音进行识别,得到识别文本;其中,语音识别模型包括编码网络和解码网络,编码网络基于样本第一干净语音经特征聚类并量化后的帧级第一量化特征、样本第一带噪语音的帧级带噪语音特征之间的对比损失训练得到,样本第一带噪语音由样本第一干净语音加噪得到,解码网络在编码网络训练收敛之后基于样本第二带噪语音进
CN114842833B
获取待识别语音
基于语音识别模型对待识别语音进行识别,得到识别文本
S11
S12
CN114842833B权利要求书1/2页
2
1.一种语音识别方法,其特征在于,包括:
获取待识别语音;
基于语音识别模型对所述待识别语音进行识别,得到识别文本;
其中,所述语音识别模型包括编码网络和解码网络,所述编码网络基于样本第一干净语音经特征聚类并量化后的帧级第一量化特征、样本第一带噪语音的帧级带噪语音特征之间的对比损失训练得到,所述样本第一带噪语音由所述样本第一干净语音加噪得到,所述解码网络在所述编码网络训练收敛之后基于样本第二带噪语音进行有监督训练得到,所述对比损失的获取步骤包括:
提取所述样本第一带噪语音的帧级深度语音特征;
在掩蔽所述样本第一带噪语音中若干语音帧的情况下,基于所述帧级深度语音特征进行上下文编码,得到所述样本第一带噪语音各所述语音帧的帧级带噪语音特征;
基于与所述帧级带噪语音特征位于相同时序的帧级第一量化特征所属聚类集合对应的特征投影参数,对所述帧级带噪语音特征进行特征投影,得到所述帧级带噪语音特征的帧级带噪投影特征;
基于与所述帧级带噪语音特征位于相同时序的帧级第一量化特征、所述帧级带噪语音特征的帧级带噪投影特征之间的特征相似度,得到所述对比损失,且在所述编码网络的训练过程中,基于所述对比损失,调整所述编码网络的网络参数和所述特征投影参数。
2.根据权利要求1所述的方法,其特征在于,所述编码网络包括顺次连接的深度特征提取子网络和上下文编码子网络,所述深度特征提取子网络用于提取所述帧级深度语音特征,所述上下文编码子网络用于执行所述上下文编码。
3.根据权利要求1或2所述的方法,其特征在于,所述对比损失由第一损失和第二损失加权得到;
其中,所述第一损失通过比对位于相同第一时序的所述帧级带噪语音特征与所述帧级第一量化特征得到,所述第二损失通过比对位于相同第二时序的所述帧级带噪语音特征与所述帧级第一量化特征,且所述第一时序为所述样本第一带噪语音中被掩蔽的语音帧所在时序,所述第二时序为所述样本第一带噪语音中未被掩蔽的语音帧所在时序。
4.根据权利要求1所述的方法,其特征在于,所述帧级第一量化特征由聚类模型对所述样本第一干净语音的帧级第一语音特征进行聚类并量化得到,且在所述编码网络每轮训练之前,所述聚类模型预先基于样本第二干净语音的帧级第二语音特征进行训练。
5.根据权利要求4所述的方法,其特征在于,在所述编码网络的首轮训练之前,所述帧级第二语音特征为所述样本第二干净语音的帧级声学特征,且在所述编码网络的首轮训练过程中,所述帧
您可能关注的文档
- CN113870355B 一种相机的平场标定方法、装置及平场标定系统 (卡莱特云科技股份有限公司).docx
- CN113920511B 车牌识别方法、模型训练方法、电子设备及可读存储介质 (深圳市景阳科技股份有限公司).docx
- CN113925068B 一种翻转脱模方法 (广州浩胜食品机械有限公司).docx
- CN113950724B 在癫痫患者的脑中标识可通过手术操作的目标区的方法 (艾克斯-马赛大学).docx
- CN113950747B 显示基板及其制备方法、显示装置 (京东方科技集团股份有限公司).docx
- CN113965306B 从多个处于休眠模式的小区传输参考信号的方法及其装置 (诺基亚技术有限公司).docx
- CN113988289B 基于对抗训练鲁棒的内容-风格解耦模型训练方法及系统 (上海交通大学).docx
- CN114004225B 一种医学文本词向量化方法 (山东健康医疗大数据有限公司).docx
- CN114009130B 用于调度请求及缓冲区状态报告传输的方法及设备 (联想(北京)有限公司).docx
- CN114064525B 存储器系统、存储器系统的控制方法以及信息处理系统 (铠侠股份有限公司).docx
最近下载
- 浙江省名校联合体2025-2026学年高一上学期12月月考数学(含答案).docx
- 2024-2025学年四川省成都市金牛区北师大版四年级上册期末考试数学试卷(含答案解析).pdf
- 城市黑臭水体整治工作指南培训-黑臭水体排查、整治及评估方案制定.pdf VIP
- 重庆《建设工程消防设计常见错误》(2024.3).docx
- 安徽省 2021 年普通高等学校专升本招生考试《大学英语》冲刺期测试题 (1).docx VIP
- 招标代理机构服务方案.docx VIP
- 眼科学复习笔记10版--郑汉龙.pdf VIP
- 操作规程和工艺控制指标检查考核制度.docx VIP
- 学习党的二十届四中全会精神测试题3份附答案.docx VIP
- 安徽省六安市金安区六安皋城中学八年级上学期11月期中数学试题(原卷版)-A4.docx VIP
原创力文档


文档评论(0)