BABYHUBERT：面向儿童为中心的长格式录音中的说话人分割的多语言自监督学习.pdfVIP

BABYHUBERT：面向儿童为中心的长格式录音中的说话人分割的多语言自监督学习.pdf

BABYHUBERT：面向儿童为中心的长格式录音中的说话人分割的多语言自监督学习

ThéoCharlot,TarekKunze,MaximePoli

AlejandrinaCristia,EmmanuelDupoux,MarvinLavechin

LSCP,DEC,ENS,EHESS,CNRS,PSLUniversity,France

ComputationalPsycholinguisticsLab,MassachusettsInstituteofTechnology,UnitedStates

ABSTRACT和多样的声学环境中表现极差。

以儿童为中心的长格式录音对于研究早期语言发展至以儿童为中心的长时段录音，通过孩子们佩戴的

本关重要，但现有的语音模型在清洁的成人数据上训练设备在整个日常生活中捕捉到的自然音频，给现有模

译后由于声学和语言差异表现不佳。我们介绍了Baby-型带来了系统性的挑战风暴：80%是非语音内容（静

中HuBERT，这是首个基于超过40种语言、13,000小时默、噪声、环境声音），随后是片段化的语音特征，包

多语言儿童为中心长格式录音训练的自我监督语音表括短暂的发声、重叠的说话者、变化不定的声学条件

v示模型。我们在说话者分割评估了BabyHuBERT，识以及远距离或模糊的音频[1,2]。

别目标儿童何时讲话以及女性成人、男性成人或其它

0孩子们自己发出的语音具有更高的基频、更大的

0儿童——这是一个分析自然语言体验的基本预处理步

5谱变异性以及非标准发音，进一步混淆了成人训练系

1.骤。BabyHuBERT在六个多样化的数据集上实现了从统[3,4]。

952.1%到74.4%的F1分数，持续超越W2V2-LL4300

0（基于英语长格式训练）和标准HuBERT（基于清洁这一技术瓶颈阻碍了大规模自动化分析的发展研

2成人语音训练）。值得注意的是，在瓦努阿图语料库究，手动标注的成本过于高昂，尤其影响到了代表性

v中，与HuBERT相比有13.2个绝对F1点的提升，在不足的语言[5]。

x所罗门群岛语料库中有15.9个点的提升，证明了对代我们引入了BabyHuBERT，这是首个在跨越超过

a12

表性不足的语言的有效性。通过共享代码和模型，40种语言的大量以儿童为中心的长格式录音上进行自

BabyHuBERT作为儿童语音研究的基础模型，使在多监督表示预训练的模型，这些录音时长达13,164小时，

样化下游任务上微调成为可能。涵盖了广泛研究的语言如英语和法语，以及代表性不

IndexTerms—可穿戴设备，在野外，多标签分足的语言包括YeliDnye、Tsimane和Quechua。我们

类，语音类型分类，自监督学习的方法在训练数据和规模方面与现有语音表示模型存

在根本性差异（参见第2节）。我们的贡献有三点：(1)

我们分享了首个专为以儿童为中心的录音设计的大规

1.介绍

模多语言语音模型；

更多 >