DYNARTmo：一种用于可视化语音运动模式的动态发音模型.pdfVIP

下载本文档

0
0
约1.5万字
约 11页
2026-03-12 发布于北京
举报

DYNARTmo：一种用于可视化语音运动模式的动态发音模型.pdf

DYNARTmo：一种用于可视化语音运动模式的动态发音模型

BerndJ.Kröger

MedicalFaculty,RWTHAachenUniversity

KrögerLabBelgium

摘要

我们提出了DYNARTmo，一个旨在在二维中矢状面可视化语音发音过程的动态发音模型。

该模型基于UK-DYNAMO框架，并融合了发音不足原则、音段和手势控制以及共发音的原则。

本DYNARTmo基于十个连续和六个离散控制参数模拟六个关键发音器官，允许生成元音和辅音

译的发音配置。当前实现嵌入了一个网络应用程序（SpeechArticulationTrainer），该程序包括矢状

中面、声门和腭部视图，使其适合用于语音学教育和言语治疗。虽然本文重点介绍了静态建模方

2面，未来的工作将解决动态运动生成及其与发音-声学模块的集成问题。

41.介绍

2.发音模型描述了在神经肌肉激活模式引导下，发声器官（即嘴唇、舌头、软腭、下颌）的运动

0模式，以生成可听语音信号作为言语交流过程的一部分。开发发音模型的动力是多方面的。(i)模

2型展示了发音和声学信号生成的过程，因此有助于理解发音和共发音的基本机制。(ii)如果与发声-

v声学模块耦合，发音模型可以揭示声带和声道中声学信号生成的机制。(iii)未来，发音模型可能作

x为高质量语音合成器发挥作用，能够生成不同的声音（即不同说话者）、不同的情感内涵等——超

a越仅仅传达口头信息的功能。然而，目前基于语料库的合成系统产生了最自然的语音质量，在实现

高质量发音合成器之前仍有许多研究问题需要解决(Campbell,2005;Kröger,2022)。

目前，发音模型主要用作研究工具来研究发音和共发音，或者与发音声学模块结合使用时，调

查声学信号生成的各个方面，包括喉下、喉部和喉上气动现象(Birkholz,2013;Kröger,2022;Fan

etal.,2024)。其他模型用于言语治疗中，以视觉方式呈现发音器官位置（(Krögeretal.,2005)）或

发音接触信息（例如舌–腭或唇接触），提供触觉反馈帮助改善我们对发音的想象。示例包括电腭

图（EPG），它提供了在言语过程中实时可视化舌–腭接触的功能（例如(Hardcastleetal.,1991;

Nordbergetal.,2011)），以及超声波视觉生物反馈（U-VBF），在治疗言语声音障碍时展示动态舌

头表面运动（(Sugdenetal.,2019;Prestonetal.,2017)）。此外，发音模型可以用于模拟治疗环境

中言语学习或重新学习过程，或者作为第二和第三语言学习的一部分。在这种情况下，发音模型需

要集成到大规模神经生物学驱动的语言处理神经模型中(Kröger,2023)。

语音发音的许多方面都可以在中矢状面表示。因此，早期的发音模型通常是二维的(Henke,

1966;Mermelstein,1973;Coker,1976;Maeda,1979;Heike,1979)。这些模型主要旨在生成高质量

的合成语音。然而，到20世纪末，基于语料库的合成器如Klatt合成器(Klatt,1980)和更新的系

统如基于语料库的语音合成器(Campbell,2005)在语音质量上已经超过了发音模型。因此，包括发

音-声学变体在内的发音模型越来越专注于作为研究工具的应用，特别是在研究跨语言和说话人群

体的语音习得、发音及共发音方面。结果，出现了越来越多包含三维空间信息、神经肌肉控制方案

以及肌肉和发音组织的生物力学建模(Kröger,2022)的详细模型。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

DYNARTmo：一种用于可视化语音运动模式的动态发音模型.pdfVIP