- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
音频–视觉对比学习在音系类别识别中的应用
刘戴琪汤玛斯·阿里亚斯-韦尔加拉耶娜·赫特尔安德烈亚斯·迈尔PaulaAndreaPérez-Toro
PatternRecognitionLab,Friedrich-Alexander-UniversitätErlangen-Nürnberg,Germany
SmartImagingLab,Friedrich-Alexander-UniversitätErlangen-Nürnberg,Germany
GITALab,UniversidaddeAntioquiaUdeA,Medellín,Colombia
daiqi.deutschfau.liu@fau.de
tomas.arias@fau.de
jana.hutter@fau.de
andreas.maier@fau.de
本paula.andrea.perez@fau.de
译
中
1ABSTRACT
v
2准确分类发音-音系特征在理解人类语音生成和开发稳健的语音技术方面发挥着至关重要的
8作用,特别是在临床环境中,目标音位分析和治疗可以提高疾病诊断准确性并促进个性化康
6
7复。在这项工作中,我们提出了一种结合实时磁共振成像(rtMRI)和语音信号以分类三个
1关键发音维度的多模态深度学习框架:发音方式、发音位置和声带振动。我们在从上述发音
.
7维度衍生出的15个音系类别上进行了分类,并使用四种音频/视觉配置评估了系统:单模态
0rtMRI,单模态音频信号,多模态中间融合以及基于对比学习的视听融合。在USC-TIMIT数
5
2据集上的实验结果显示,我们的基于对比学习的方法达到了最先进的性能,平均F1得分为
:0.81,与单模态基线相比绝对提高了0.23。结果证实了对比表示学习对于多模态发音分析的有
v
i效性。我们的代码和处理后的数据集将在/DaE-plz/AC_Contrastive_
x
rPhonology公开发布以支持未来研究。
a
Keywords实时MRI,对比学习,多模态深度学习,音素识别
1介绍
理解人类言语生产背后的构音过程是语音科学中长期存在的挑战,对理论语言学和临床诊断有着深远的影
响[1]。实时磁共振成像(rtMRI)已经成为一种强大的工具,用于可视化言语生成过程中声门道的动态配置,
提供了关于构音机制前所未有的洞察力[2]。这些洞察可以通过音位分析进行量化,从而更深入地理解人类语
言。然而,从这些高维且往往噪声较大的序列中提取有意义的音位表示仍然具有挑战性。一方面,仅使用MRI
而没有音频记录限制了系统准确区分某些音位的能力,主要是因为发音时声门道结构周围的细微变化[3];因
此,在进行MRI扫描期间结合言语录音可以提高音位识别的准确性。另一方面,获取同步的语音录音需要使
用非磁性麦克风(例如光纤),但由于这类设备的成本高昂而可能无法获得。因此,需要能够整合在MRI扫
描过程中采集到的音频-视频数据的方法来进行音位分析。
音频–视觉对比音系学
您可能关注的文档
- 人工智能电话调查:利用人工智能面试官自动化定量数据收集-计算机科学-大语言模型-人工智能面试官.pdf
- 跨语言问答——WANA:一种用于信息检索问答的基准,在 WestAisia 和 NorthAfrica 的语言中-计算机科学-机器学习-数据收集.pdf
- 四旋翼运动规划的动力学安全保证-计算机科学-机器学习-自主无人机-最优控制-运动规划.pdf
- MCM: 基于 Mamba 的心脏运动追踪使用 MRI 中 的连续图像-计算机科学-机器学习-磁共振成像-心脏运动追踪.pdf
- 稳定迭代求解器用于病态线性系统-计算机科学-机器学习-线性系统-算法.pdf
- 中国早产保温箱行业市场规模及未来投资方向研究报告.pdf
- 中国早强型水泥行业市场规模及未来投资方向研究报告.pdf
- 中国早幼教行业市场规模及未来投资方向研究报告.pdf
- 中国早园笋行业市场规模及未来投资方向研究报告.pdf
- 中国早强型无收缩灌浆材料行业市场规模及未来投资方向研究报告.pdf
文档评论(0)