CN114842833B 语音识别方法及相关装置、电子设备和存储介质 (合肥讯飞数码科技有限公司).docxVIP

CN114842833B 语音识别方法及相关装置、电子设备和存储介质 (合肥讯飞数码科技有限公司).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114842833B(45)授权公告日2025.07.11

(21)申请号202210514378.8

(22)申请日2022.05.11

(65)同一申请的已公布的文献号申请公布号CN114842833A

(43)申请公布日2022.08.02

(73)专利权人合肥讯飞数码科技有限公司

地址230000安徽省合肥市(安徽)自由贸

易试验区合肥市高新区望江西路666号人工智能云服务平台研发楼

(72)发明人宣璇方磊周振昆胡鹏方四安

(74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙)44280

专利代理师刘希

(51)Int.CI.

G10L15/02(2006.01)

G10L15/06(2013.01)

G10L15/26(2006.01)G10L19/04(2013.01)

(56)对比文件

CN112086087A,2020.12.15

审查员马晓

权利要求书2页说明书13页附图4页

(54)发明名称

语音识别方法及相关装置、电子设备和存储介质

(57)摘要

CN114842833B本申请公开了一种语音识别方法及相关装置、电子设备和存储介质,其中,语音识别方法包括:获取待识别语音;基于语音识别模型对待识别语音进行识别,得到识别文本;其中,语音识别模型包括编码网络和解码网络,编码网络基于样本第一干净语音经特征聚类并量化后的帧级第一量化特征、样本第一带噪语音的帧级带噪语音特征之间的对比损失训练得到,样本第一带噪语音由样本第一干净语音加噪得到,解码网络在编码网络训练收敛之后基于样本第二带噪语音进

CN114842833B

获取待识别语音

基于语音识别模型对待识别语音进行识别,得到识别文本

S11

S12

CN114842833B权利要求书1/2页

2

1.一种语音识别方法,其特征在于,包括:

获取待识别语音;

基于语音识别模型对所述待识别语音进行识别,得到识别文本;

其中,所述语音识别模型包括编码网络和解码网络,所述编码网络基于样本第一干净语音经特征聚类并量化后的帧级第一量化特征、样本第一带噪语音的帧级带噪语音特征之间的对比损失训练得到,所述样本第一带噪语音由所述样本第一干净语音加噪得到,所述解码网络在所述编码网络训练收敛之后基于样本第二带噪语音进行有监督训练得到,所述对比损失的获取步骤包括:

提取所述样本第一带噪语音的帧级深度语音特征;

在掩蔽所述样本第一带噪语音中若干语音帧的情况下,基于所述帧级深度语音特征进行上下文编码,得到所述样本第一带噪语音各所述语音帧的帧级带噪语音特征;

基于与所述帧级带噪语音特征位于相同时序的帧级第一量化特征所属聚类集合对应的特征投影参数,对所述帧级带噪语音特征进行特征投影,得到所述帧级带噪语音特征的帧级带噪投影特征;

基于与所述帧级带噪语音特征位于相同时序的帧级第一量化特征、所述帧级带噪语音特征的帧级带噪投影特征之间的特征相似度,得到所述对比损失,且在所述编码网络的训练过程中,基于所述对比损失,调整所述编码网络的网络参数和所述特征投影参数。

2.根据权利要求1所述的方法,其特征在于,所述编码网络包括顺次连接的深度特征提取子网络和上下文编码子网络,所述深度特征提取子网络用于提取所述帧级深度语音特征,所述上下文编码子网络用于执行所述上下文编码。

3.根据权利要求1或2所述的方法,其特征在于,所述对比损失由第一损失和第二损失加权得到;

其中,所述第一损失通过比对位于相同第一时序的所述帧级带噪语音特征与所述帧级第一量化特征得到,所述第二损失通过比对位于相同第二时序的所述帧级带噪语音特征与所述帧级第一量化特征,且所述第一时序为所述样本第一带噪语音中被掩蔽的语音帧所在时序,所述第二时序为所述样本第一带噪语音中未被掩蔽的语音帧所在时序。

4.根据权利要求1所述的方法,其特征在于,所述帧级第一量化特征由聚类模型对所述样本第一干净语音的帧级第一语音特征进行聚类并量化得到,且在所述编码网络每轮训练之前,所述聚类模型预先基于样本第二干净语音的帧级第二语音特征进行训练。

5.根据权利要求4所述的方法,其特征在于,在所述编码网络的首轮训练之前,所述帧级第二语音特征为所述样本第二干净语音的帧级声学特征,且在所述编码网络的首轮训练过程中,所述帧

您可能关注的文档

文档评论(0)

xm + 关注
实名认证
文档贡献者

专业学习资料,专业文档

1亿VIP精品文档

相关文档