- 0
- 0
- 约1.93万字
- 约 31页
- 2026-01-21 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN114707668B(45)授权公告日2025.07.11
(21)申请号202210476322.8
(22)申请日2022.04.29
(65)同一申请的已公布的文献号申请公布号CN114707668A
(43)申请公布日2022.07.05
(73)专利权人思必驰科技股份有限公司
地址215123江苏省苏州市苏州工业园区
新平街388号腾飞创新园14栋
(72)发明人钱彦旻韩冰陈正阳
(74)专利代理机构北京商专永信知识产权代理事务所(普通合伙)11400
专利代理师邓婷婷黄谦
(56)对比文件
Han,B.等.Self-supervisedspeaker
verificationusingdynamicloss-gateandlabelcorrection.《Proc.Interspeech
2022》.2022,4780-4784.
审查员景灵鑫
(51)Int.CI.
GO6N20/00(2019.01)
权利要求书1页说明书12页附图4页
(54)发明名称
自监督说话人模型训练方法、电子设备和存储介质
(57)摘要
CN114707668B本发明公开自监督说话人模型训练方法、电子设备和存储介质,其中,一种自监督说话人模型训练方法,包括:对每一轮训练,计算当前轮所有训练数据的损失值,对所述所有训练数据的损失使用高斯混合模型建模得到动态阈值;基于当前训练数据的损失值与所述动态阈值的关系对所述当前训练数据进行筛选;使用筛选后的训练数据进行所述说话人模型训练。本申请的方法采用高斯混合模型动态模拟损失分布,并使用估计的动态阈值自动区分可靠和不可靠标签。在进一步的实施例中,为了更好地利用不可靠的数据,
CN114707668B
对每一轮训练,计算当前轮所有训练数据的损失值,对所述所有训练数据的损失值使用高斯混合模型建模得到动态闽值
基于当前训练数据的损失值与所述动态阈值的关系对所述当前训练数据进行筛选
使用筛选后的训练数据进行所述说话人模型训练
101
102
103
CN114707668B权利要求书1/1页
2
1.一种自监督说话人模型训练方法,包括:
使用由无标签蒸馏预训练的说话人编码器来提取每个话语的说话人嵌入作为待训练的数据;
应用k-means聚类算法为属于同一聚类的话语分配相同的伪标签,其中,所述伪标签用于后续的自监督训练;
对每一轮训练,计算当前轮所有训练数据的损失值,对所述所有训练数据的损失值使用高斯混合模型建模得到动态阈值,包括,使用具有2个高斯分量的高斯混合模型动态模拟所述所有训练数据的损失值分布;基于获取的同时属于所述2个高斯分量的高斯混合模型的概率相等的损失值确定动态阈值;
基于当前训练数据的损失值与所述动态阈值的关系对所述当前训练数据进行筛选,包括,判断所述当前训练数据的损失值是否大于所述动态阈值;若所述当前训练数据的损失值大于所述动态阈值,使用所述说话人模型的输出对所述当前训练数据进行标签校正,使用标签校正后的训练数据进行所述说话人模型训练;若所述当前训练数据的损失值不大于所述动态阈值的,将所述当前训练数据直接用于所述说话人模型的训练;
使用筛选后的训练数据进行所述说话人模型训练。
2.根据权利要求1所述的方法,其中,所述使用所述说话人模型的输出对所述当前训练数据进行标签校正包括:
判断所述当前训练数据对应的所述说话人模型的输出的预测后验概率是否大于预设概率阈值;
若所述当前训练数据对应的所述说话人模型的输出的预测后验概率大于预设概率阈值,使用所述说话人模型的输出替换所述当前训练数据的标签用于训练;
若所述当前训练数据对应的所述说话人模型的输出的预测后验概率不大于所述预设概率阈值,丢弃所述当前训练数据。
3.根据权利要求1所述的方法,其中,所述训练数据包括所述待训练的数据和与所述待训练的数据对应的标签。
4.根据权利要求1-3中任一项所述的方法,其中,所述说话人模型包括说话人验证模型、说话人识别模型和说话人分类模型。
5.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所
您可能关注的文档
- CN113870355B 一种相机的平场标定方法、装置及平场标定系统 (卡莱特云科技股份有限公司).docx
- CN113906804B 用户终端以及无线通信方法 (株式会社Ntt都科摩).docx
- CN113920511B 车牌识别方法、模型训练方法、电子设备及可读存储介质 (深圳市景阳科技股份有限公司).docx
- CN113925068B 一种翻转脱模方法 (广州浩胜食品机械有限公司).docx
- CN113950724B 在癫痫患者的脑中标识可通过手术操作的目标区的方法 (艾克斯-马赛大学).docx
- CN113950747B 显示基板及其制备方法、显示装置 (京东方科技集团股份有限公司).docx
- CN113961298B 一种页面切换方法、装置、设备及介质 (中国建设银行股份有限公司).docx
- CN113965306B 从多个处于休眠模式的小区传输参考信号的方法及其装置 (诺基亚技术有限公司).docx
- CN113988289B 基于对抗训练鲁棒的内容-风格解耦模型训练方法及系统 (上海交通大学).docx
- CN114004225B 一种医学文本词向量化方法 (山东健康医疗大数据有限公司).docx
- CN114707745B 一种资源分配方法、系统、存储介质及电子设备 (国家能源投资集团有限责任公司).docx
- CN114739415B 基于多传感器融合的多车定位方法、装置及计算机设备 (中国人民解放军国防科技大学).docx
- CN114739469B 一种用于超声波流量计的防错波方法及超声波流量计 (金卡水务科技有限公司).docx
- CN114755301B 层状结构界面粘接质量自动识别及c扫描成像方法及系统 (中北大学).docx
- CN114781048B 基于分段仿射辨识轮胎模型的车辆行驶状态估计方法 (江苏大学).docx
- CN114783346B 伽马调试方法、装置、设备及存储介质 (云谷(固安)科技有限公司).docx
- CN114783993B 合封氮化镓功率器件的半桥拓扑集成方法和芯片 (东科半导体(安徽)股份有限公司).docx
- CN114821620B 基于行文本框纵向合并的文本内容提取识别方法 (浙江理工大学).docx
- CN114825935B 一种四开关升降压变换器的双时间尺度优化控制方法 (中国电子科技集团公司第四十三研究所).docx
- CN114842166B 应用于结构化道路的负障碍检测方法、系统、介质及设备 (长沙行深智能科技有限公司).docx
最近下载
- T_HHPA 001-2025 老年人跌倒风险评估及干预措施.docx
- 2012河北高考分数一分一档表(文科 理科).xls VIP
- 中考《红岩》知识点整理.docx VIP
- 喜赫化工脂肪酸甲酯乙氧基化物fmee的生产跟运用.doc VIP
- 中国成人IgA肾病及IgA血管炎肾炎临床实践指南(2025年)解读课件PPT.pptx
- 2025劳动合同法实施条例【全文】.docx VIP
- 黑龙江省生态环境厅直属事业单位招聘考试真题2024.docx VIP
- 2026年时事政治题库常考点试卷及参考答案详解(基础题).docx
- 2022年版义务教育劳动课程标准.docx VIP
- 其他从业人员复训练习测试卷.doc
原创力文档

文档评论(0)