DYNARTmo:一种用于可视化语音运动模式的动态发音模型.pdfVIP

  • 0
  • 0
  • 约1.5万字
  • 约 11页
  • 2026-03-12 发布于北京
  • 举报

DYNARTmo:一种用于可视化语音运动模式的动态发音模型.pdf

DYNARTmo:一种用于可视化语音运动模式的动态发音模型

BerndJ.Kröger

MedicalFaculty,RWTHAachenUniversity

KrögerLabBelgium

摘要

我们提出了DYNARTmo,一个旨在在二维中矢状面可视化语音发音过程的动态发音模型。

该模型基于UK-DYNAMO框架,并融合了发音不足原则、音段和手势控制以及共发音的原则。

本DYNARTmo基于十个连续和六个离散控制参数模拟六个关键发音器官,允许生成元音和辅音

译的发音配置。当前实现嵌入了一个网络应用程序(SpeechArticulationTrainer),该程序包括矢状

中面、声门和腭部视图,使其适合用于语音学教育和言语治疗。虽然本文重点介绍了静态建模方

2面,未来的工作将解决动态运动生成及其与发音-声学模块的集成问题。

v

3

41.介绍

3

0

2.发音模型描述了在神经肌肉激活模式引导下,发声器官(即嘴唇、舌头、软腭、下颌)的运动

7

0模式,以生成可听语音信号作为言语交流过程的一部分。开发发音模型的动力是多方面的。(i)模

5

2型展示了发音和声学信号生成的过程,因此有助于理解发音和共发音的基本机制。(ii)如果与发声-

:

v声学模块耦合,发音模型可以揭示声带和声道中声学信号生成的机制。(iii)未来,发音模型可能作

i

x为高质量语音合成器发挥作用,能够生成不同的声音(即不同说话者)、不同的情感内涵等——超

r

a越仅仅传达口头信息的功能。然而,目前基于语料库的合成系统产生了最自然的语音质量,在实现

高质量发音合成器之前仍有许多研究问题需要解决(Campbell,2005;Kröger,2022)。

目前,发音模型主要用作研究工具来研究发音和共发音,或者与发音声学模块结合使用时,调

查声学信号生成的各个方面,包括喉下、喉部和喉上气动现象(Birkholz,2013;Kröger,2022;Fan

etal.,2024)。其他模型用于言语治疗中,以视觉方式呈现发音器官位置((Krögeretal.,2005))或

发音接触信息(例如舌–腭或唇接触),提供触觉反馈帮助改善我们对发音的想象。示例包括电腭

图(EPG),它提供了在言语过程中实时可视化舌–腭接触的功能(例如(Hardcastleetal.,1991;

Nordbergetal.,2011)),以及超声波视觉生物反馈(U-VBF),在治疗言语声音障碍时展示动态舌

头表面运动((Sugdenetal.,2019;Prestonetal.,2017))。此外,发音模型可以用于模拟治疗环境

中言语学习或重新学习过程,或者作为第二和第三语言学习的一部分。在这种情况下,发音模型需

要集成到大规模神经生物学驱动的语言处理神经模型中(Kröger,2023)。

语音发音的许多方面都可以在中矢状面表示。因此,早期的发音模型通常是二维的(Henke,

1966;Mermelstein,1973;Coker,1976;Maeda,1979;Heike,1979)。这些模型主要旨在生成高质量

1

的合成语音。然而,到20世纪末,基于语料库的合成器如Klatt合成器(Klatt,1980)和更新的系

统如基于语料库的语音合成器(Campbell,2005)在语音质量上已经超过了发音模型。因此,包括发

音-声学变体在内的发音模型越来越专注于作为研究工具的应用,特别是在研究跨语言和说话人群

体的语音习得、发音及共发音方面。结果,出现了越来越多包含三维空间信息、神经肌肉控制方案

以及肌肉和发音组织的生物力学建模(Kröger,2022)的详细模型。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档