- 0
- 0
- 约2.12万字
- 约 6页
- 2026-02-27 发布于北京
- 举报
BABYHUBERT:面向儿童为中心的长格式录音中的说话人分割的多语言自监督学习
ThéoCharlot,TarekKunze,MaximePoli
AlejandrinaCristia,EmmanuelDupoux,MarvinLavechin
LSCP,DEC,ENS,EHESS,CNRS,PSLUniversity,France
ComputationalPsycholinguisticsLab,MassachusettsInstituteofTechnology,UnitedStates
ABSTRACT和多样的声学环境中表现极差。
以儿童为中心的长格式录音对于研究早期语言发展至以儿童为中心的长时段录音,通过孩子们佩戴的
本关重要,但现有的语音模型在清洁的成人数据上训练设备在整个日常生活中捕捉到的自然音频,给现有模
译后由于声学和语言差异表现不佳。我们介绍了Baby-型带来了系统性的挑战风暴:80%是非语音内容(静
中HuBERT,这是首个基于超过40种语言、13,000小时默、噪声、环境声音),随后是片段化的语音特征,包
多语言儿童为中心长格式录音训练的自我监督语音表括短暂的发声、重叠的说话者、变化不定的声学条件
1
v示模型。我们在说话者分割评估了BabyHuBERT,识以及远距离或模糊的音频[1,2]。
1
别目标儿童何时讲话以及女性成人、男性成人或其它
0孩子们自己发出的语音具有更高的基频、更大的
0儿童——这是一个分析自然语言体验的基本预处理步
5谱变异性以及非标准发音,进一步混淆了成人训练系
1.骤。BabyHuBERT在六个多样化的数据集上实现了从统[3,4]。
952.1%到74.4%的F1分数,持续超越W2V2-LL4300
0(基于英语长格式训练)和标准HuBERT(基于清洁这一技术瓶颈阻碍了大规模自动化分析的发展研
5
2成人语音训练)。值得注意的是,在瓦努阿图语料库究,手动标注的成本过于高昂,尤其影响到了代表性
:
v中,与HuBERT相比有13.2个绝对F1点的提升,在不足的语言[5]。
i
x所罗门群岛语料库中有15.9个点的提升,证明了对代我们引入了BabyHuBERT,这是首个在跨越超过
r
a12
表性不足的语言的有效性。通过共享代码和模型,40种语言的大量以儿童为中心的长格式录音上进行自
BabyHuBERT作为儿童语音研究的基础模型,使在多监督表示预训练的模型,这些录音时长达13,164小时,
样化下游任务上微调成为可能。涵盖了广泛研究的语言如英语和法语,以及代表性不
IndexTerms—可穿戴设备,在野外,多标签分足的语言包括YeliDnye、Tsimane和Quechua。我们
类,语音类型分类,自监督学习的方法在训练数据和规模方面与现有语音表示模型存
在根本性差异(参见第2节)。我们的贡献有三点:(1)
我们分享了首个专为以儿童为中心的录音设计的大规
1.介绍
模多语言语音模型;
您可能关注的文档
最近下载
- 《阿尔茨海默病及相关痴呆的营养预防和干预专家共识(2025)》解读PPT课件.pptx VIP
- 关于高校基层党组织机构优化设置的探讨.doc VIP
- 2025江苏医药职业学院单招《英语》真题附参考答案详解【精练】.docx VIP
- 第一单元第一课《领略丝路遗珍》课件2025-2026学年人美版初中美术八年级下册.pptx VIP
- 岩土工程勘察收费标准(完整版).docx VIP
- 2025四川省中职学生单招考试英语答案 .pdf VIP
- 快消年度工作总结.pptx VIP
- 慢性肾脏病相关瘙痒管理中国专家共识解读(PPT课件.pptx VIP
- 企业所得税年度纳税申报表A类.pdf VIP
- 2022高二英语人教版新教材选择性必修三课文及翻译(英汉对照).pdf VIP
原创力文档

文档评论(0)