CN115294962B 语音合成模型的训练方法、装置、设备及存储介质 (腾讯科技(深圳)有限公司).docxVIP

CN115294962B 语音合成模型的训练方法、装置、设备及存储介质 (腾讯科技(深圳)有限公司).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN115294962B(45)授权公告日2025.07.04

(21)申请号202210919946.2

(22)申请日2022.08.01

(65)同一申请的已公布的文献号申请公布号CN115294962A

(43)申请公布日2022.11.04

G10L13/02(2013.01)

(56)对比文件

CN113823260A,2021.12.21CN112802448A,2021.05.14审查员刘畅

(73)专利权人腾讯科技(深圳)有限公司

地址518057广东省深圳市南山区高新区

科技中一路腾讯大厦35层

(72)发明人林诗伦蒙力苏文超

(74)专利代理机构北京三高永信知识产权代理有限责任公司11138

专利代理师祝亚男

(51)Int.CI.

G1OL13/08(2013.01)

G1OL19/16(2013.01)权利要求书3页说明书18页附图7页

(54)发明名称

语音合成模型的训练方法、装置、设备及存储介质

(57)摘要

CN115294962B本申请公开了一种语音合成模型的训练方法、装置、设备及存储介质,涉及人工智能领域。方法包括:通过文本编码器得到样本隐藏文本表征;基于样本隐藏文本表征和样本声学特征,通过第一解码器得到第一发音时长和第一预测声学特征;基于样本隐藏文本特征,通过时长预测器得到第二发音时长;基于对第一发音时长进行上采样处理得到的样本隐藏文本扩展表征,通过第二解码器得到第二预测声学特征;基于第一发音时长、第二发音时长、样本声学特征、第一预测声学特征和第二预测声学特征,训练文本编码器、时长预测器、第一解码器和第二解码器;基于训练好的文本编码器、时长预测器和第二解码器

CN115294962B

样本文本

301

样本隐藏文本表征303样本隐藏文本扩展表征307

样本隐藏文本表征303

350

第一发音时长304

第二发告叶长306

文本编码豁,时长预测。第一解s

310330

祥本隐威文本表征303

样本声学特征302

第二预湖声学特征308

第一预测声学特征305

CN115294962B权利要求书1/3页

2

1.一种语音合成模型的训练方法,其特征在于,所述方法包括:

通过文本编码器对样本文本进行编码,得到样本隐藏文本表征;

基于所述样本隐藏文本表征以及所述样本文本对应的样本声学特征,通过第一解码器的注意力机制确定所述样本隐藏文本表征与所述样本声学特征之间的对齐矩阵以及注意力权重;

基于所述对齐矩阵,确定所述样本隐藏文本表征对应的第一发音时长;

基于所述注意力权重、所述样本隐藏文本表征以及所述样本声学特征,通过所述第一解码器的子解码器进行解码,得到第一预测声学特征;

基于所述样本隐藏文本表征,通过时长预测器进行时长预测,得到第二发音时长;

基于所述第一发音时长对所述样本隐藏文本表征进行上采样处理,得到样本隐藏文本扩展表征;

通过第二解码器对所述样本隐藏文本扩展表征进行解码,得到第二预测声学特征;

将所述第一发音时长作为所述第二发音时长的监督,以及将所述样本声学特征作为所述第一预测声学特征和所述第二预测声学特征的监督,采用端到端方式训练所述文本编码器、所述时长预测器、所述第一解码器以及所述第二解码器;

基于训练得到的所述文本编码器、所述时长预测器以及所述第二解码器构建语音合成

模型。

2.根据权利要求1所述的方法,其特征在于,所述基于所述注意力权重以及所述样本隐藏文本表征,通过所述子解码器进行解码,得到第一预测声学特征,包括:

基于第t时刻的所述注意力权重,对所述样本隐藏文本表征进行注意力计算,得到第t时刻的上下文特征;

基于第t时刻的所述上下文特征以及第t-1时刻的所述样本声学特征,通过所述子解码器进行解码,得到第t时刻的预测声学子特征;

基于各个时刻的所述预测声学子特征生成所述第一预测声学特征。

3.根据权利要求1所述的方法,其特征在于,所述将所述第一发音时长作为所述第二发音时长的监督,以及将所述样本声学特征作为所述第一

您可能关注的文档

文档评论(0)

aabbcc + 关注
实名认证
文档贡献者

若下载文档格式有问题,请咨询qq1643702686索取原版

1亿VIP精品文档

相关文档