CN114707668B 自监督说话人模型训练方法、电子设备和存储介质（思必驰科技股份有限公司）.docxVIP

下载本文档

0
0
约1.93万字
约 31页
2026-01-21 发布于重庆
举报

CN114707668B 自监督说话人模型训练方法、电子设备和存储介质（思必驰科技股份有限公司）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114707668B(45)授权公告日2025.07.11

(21)申请号202210476322.8

(22)申请日2022.04.29

(65)同一申请的已公布的文献号申请公布号CN114707668A

(43)申请公布日2022.07.05

(73)专利权人思必驰科技股份有限公司

地址215123江苏省苏州市苏州工业园区

新平街388号腾飞创新园14栋

(72)发明人钱彦旻韩冰陈正阳

(74)专利代理机构北京商专永信知识产权代理事务所(普通合伙)11400

专利代理师邓婷婷黄谦

(56)对比文件

Han,B.等.Self-supervisedspeaker

verificationusingdynamicloss-gateandlabelcorrection.《Proc.Interspeech

2022》.2022,4780-4784.

审查员景灵鑫

(51)Int.CI.

GO6N20/00(2019.01)

权利要求书1页说明书12页附图4页

(54)发明名称

自监督说话人模型训练方法、电子设备和存储介质

(57)摘要

CN114707668B本发明公开自监督说话人模型训练方法、电子设备和存储介质，其中，一种自监督说话人模型训练方法，包括：对每一轮训练，计算当前轮所有训练数据的损失值，对所述所有训练数据的损失使用高斯混合模型建模得到动态阈值；基于当前训练数据的损失值与所述动态阈值的关系对所述当前训练数据进行筛选；使用筛选后的训练数据进行所述说话人模型训练。本申请的方法采用高斯混合模型动态模拟损失分布，并使用估计的动态阈值自动区分可靠和不可靠标签。在进一步的实施例中，为了更好地利用不可靠的数据，

CN114707668B

对每一轮训练，计算当前轮所有训练数据的损失值，对所述所有训练数据的损失值使用高斯混合模型建模得到动态闽值

基于当前训练数据的损失值与所述动态阈值的关系对所述当前训练数据进行筛选

使用筛选后的训练数据进行所述说话人模型训练

101

102

103

CN114707668B权利要求书1/1页

1.一种自监督说话人模型训练方法，包括：

使用由无标签蒸馏预训练的说话人编码器来提取每个话语的说话人嵌入作为待训练的数据；

应用k-means聚类算法为属于同一聚类的话语分配相同的伪标签，其中，所述伪标签用于后续的自监督训练；

对每一轮训练，计算当前轮所有训练数据的损失值，对所述所有训练数据的损失值使用高斯混合模型建模得到动态阈值，包括，使用具有2个高斯分量的高斯混合模型动态模拟所述所有训练数据的损失值分布；基于获取的同时属于所述2个高斯分量的高斯混合模型的概率相等的损失值确定动态阈值；

基于当前训练数据的损失值与所述动态阈值的关系对所述当前训练数据进行筛选，包括，判断所述当前训练数据的损失值是否大于所述动态阈值；若所述当前训练数据的损失值大于所述动态阈值，使用所述说话人模型的输出对所述当前训练数据进行标签校正，使用标签校正后的训练数据进行所述说话人模型训练；若所述当前训练数据的损失值不大于所述动态阈值的，将所述当前训练数据直接用于所述说话人模型的训练；

使用筛选后的训练数据进行所述说话人模型训练。

2.根据权利要求1所述的方法，其中，所述使用所述说话人模型的输出对所述当前训练数据进行标签校正包括：

判断所述当前训练数据对应的所述说话人模型的输出的预测后验概率是否大于预设概率阈值；

若所述当前训练数据对应的所述说话人模型的输出的预测后验概率大于预设概率阈值，使用所述说话人模型的输出替换所述当前训练数据的标签用于训练；

若所述当前训练数据对应的所述说话人模型的输出的预测后验概率不大于所述预设概率阈值，丢弃所述当前训练数据。

3.根据权利要求1所述的方法，其中，所述训练数据包括所述待训练的数据和与所述待训练的数据对应的标签。

4.根据权利要求1-3中任一项所述的方法，其中，所述说话人模型包括说话人验证模型、说话人识别模型和说话人分类模型。

5.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN114707668B 自监督说话人模型训练方法、电子设备和存储介质（思必驰科技股份有限公司）.docxVIP