单发言人长格式实时 MRI 语音数据集和基准测试.pdfVIP

单发言人长格式实时 MRI 语音数据集和基准测试.pdf

单发言人长格式实时MRI语音数据集和基准测试

SeanFoley,JihwanLee,KevinHuang,XuanShi,

YoonjeongLee,LouisGoldstein,ShrikanthNarayanan

SignalAnalysisandInterpretationLab,UniversityofSouthernCalifornia

DepartmentofLinguistics,UniversityofSouthernCalifornia

ABSTRACT布。USC-TIMIT数据集[3]包含来自10名说话者的

我们发布了USC长单发音人（LSS）数据集，其中包含rtMRI视频和音频，其中包括5名男性和5名女性，

了发声过程中实时MRI视频的声道动态以及同时获产生460句语音丰富的句子，以23帧每秒的速度捕

本取的声音数据。这一独特的数据集包含大约一小时来获。对于每位说话者，大约有37分钟的语音。USC

译自单一美式英语母语者的视频和音频数据，使其成为75-Speaker数据集[4]包含来自75名说话者的读出和

中公开可用的实时MRI语音数据中较长的单发音人数自发性语音的混合内容，其中包括美式英语、印度英

1据集之一。除了发音和声学原始数据外，我们还发布语以及中文等其他语言的母语使用者。每位说话者的

v了适用于多种下游任务的数据派生表示形式。这包括大约有17分钟的语音，MRI视频以86帧每秒的速度

9裁剪至声道区域的视频、按句子级别划分的数据切分、重建。这里发布的数据集在这些早期的数据集基础上

4恢复和降噪后的音频以及感兴趣区域的时间序列。我进行了扩展，重点是为单个说话者捕捉更多数据。

1们还在发音合成和音素识别任务上对该数据集进行了

9基准测试，提供了未来研究可以在此基础上改进的任

5务基线性能。数据集网站：/span/使用rtMRI收集的语音数据已被应用于一系列语

2single_spk音处理任务和音系分析，如发音合成和语音逆向工程。

v虽然电磁发音图描记术和超声波发音数据也用于这些

iIndexTerms—实时MRI，语音产生，数据集，

x任务中，但它们通常需要额外的声学特征来捕捉鼻音

r基准测试

a和声音[5]。基于rtMRI的方法可以直接实现类似的

效果，无需任何附加内容[6]。从发音数据进行自我监

1.介绍

督表示学习[7]已应用于脑机接口[8]和自动化发音评

语音生成需要在声道中形成狭窄区域，通过多个估[9]，其中rtMRI数据集已被部署于这些发展中[7]。

发音器官协同工作以高效和有效地实现这些狭窄区最后，从实时磁共振成像及其对应的音频中进行音素

域[1,2]。在语音生成过程中使用的至关重要的主动发识别已经允许了多模态建模和表征学习[10,11]。

音器官至少包括嘴唇、下颌、舌头、软腭和喉部。虽

然存在多种方法来捕捉语音生成过程中的各种发音器

官，但实时（rt）MRI提供了对声道最深入的视角，提我们发布了USC单说话人长语音（LSS）数据集，